Bio-Inspired Memory Architecture for LLMs

Résumé. Cette note de position propose une architecture de mémoire hybride pour les grands modèles de langage (LLM), articulée autour de trois contributions : (1) une séparation index latent / stockage externe souverain, (2) une distillation sélective qui préserve les leçons abstraites en oubliant les données privées, et (3) un métabolisme d'élimination actif pondéré par criticité et corroboration multi-sources. L'architecture s'appuie sur des briques technologiques existantes (Mem0, SAE/DLM-Scope, Mercury 2, SYNAPSE) et adresse trois lacunes majeures des LLM : absence d'apprentissage continu, accumulation vectorielle non régulée, et tension privacité–généralisation. Les analogies biologiques servent de guide heuristique architectural, non de validation mécaniste.

1. Motivation : pourquoi ce problème importe

Les LLM actuels ne retiennent rien entre les sessions. Chaque conversation repart de zéro — un gaspillage computationnel considérable, puisque les mêmes raisonnements doivent être reproduits indéfiniment. Ce problème est couplé à trois défis identifiés dans la littérature récente :

Oubli catastrophique — l'intégration de nouvelles connaissances dégrade les anciennes [1].
Accumulation vectorielle toxique — le contexte grandit sans régulation ; les systèmes à mémoire longue (agents) accumulent du bruit qui amplifie les hallucinations.
Tension privacité–généralisation — GDPR et souveraineté des données vs. besoin d'apprendre de chaque interaction.

Analogie clinique. Un praticien oublie les détails de chaque consultation passée, mais retient les leçons diagnostiques. Il ne confond pas « se souvenir du patient » avec « avoir appris du cas ». C'est exactement cette séparation que nous proposons pour les LLM.

2. Trois contributions

1 · Séparation Index / Stockage

Graines internes comprimées (vecteurs légers) pour récupération O(log N). Stockage externe indépendant pour traces complètes. L'utilisateur contrôle ses données.

2 · Distillation Sélective

Les données privées s'oublient après consolidation offline. Les leçons abstraites (patterns, règles) sont conservées et intégrées via réentraînement doux (LoRA, continual RL).

3 · Métabolisme d'Élimination

Purge active par criticité (signal/bruit), corroboration (accord multi-sources) et consolidation offline. Prévient l'intoxication vectorielle des agents long-horizon.

Ces trois mécanismes ne sont pas indépendants : la séparation index/stockage permet la distillation sélective (on ne peut distiller que ce qu'on a séparé), et le métabolisme régule les deux (en éliminant les graines et traces devenues obsolètes).

3. Architecture proposée

3.1 Structure en trois couches

┌──────────────────────────────────────────────────┐ │ LLM (embedding + forward pass) │ │ Projection de requête → graine latente (seed) │ └──────────────┬───────────────────────────────────┘ │ ┌───────▼──────────┐ │ L1: Index Local │ Graines comprimées (latent seeds) │ - Divergence │ Récupération rapide O(log N) │ - Saillance │ Métadonnées criticité + surprise └───────┬──────────┘ │ ┌───────▼──────────────────┐ │ L2: Stockage Externe │ Mémoire épisodique persistante │ - Vectorstore (Milvus) │ Souveraineté utilisateur │ - Métadonnées tempo. │ Traces complètes └───────┬──────────────────┘ │ ┌───────▼──────────────────┐ │ L3: Métabolisme Actif │ Purge pondérée par criticité │ - Distillation offline │ Consolidation abstraite │ - Régulation saillance │ Anti-sur-correction └──────────────────────────┘

Figure 1. Architecture à trois couches avec boucles de régulation. L1 ne modifie pas les poids du modèle — il opère sur un index externe.

3.2 Séparation Index / Contenu (L1 ↔ L2)

L'index interne ne stocke que des graines comprimées : vecteurs légers (~100–300 dimensions) accompagnés de métadonnées de saillance, criticité et provenance. Le stockage externe conserve les traces complètes et reste indépendant du modèle. Cette séparation a trois conséquences :

Économie radicale — rapport de compression graine/document pouvant atteindre 100:1, réduisant le coût de stockage GPU.
Passage à l'échelle — l'index reste borné tandis que le stockage externe croît sur supports bon marché.
Souveraineté — les données sensibles restent sur l'infrastructure de l'utilisateur ; le modèle ne possède que des pointeurs anonymisés.

3.2.1 Protocole de reprise de session (session handshake)

La séparation index/stockage pose un problème pratique : à la réouverture d'une session, le modèle doit retrouver l'état pertinent de la mémoire externe sans scanner l'intégralité du stockage. Nous proposons un snapshot d'état contextuel généré automatiquement à la fermeture de chaque session.

Ce snapshot est un vecteur compact qui encode la topologie courante de l'index : graines actives, graines en quarantaine, score de criticité moyen, derniers patterns distillés, et pointeurs vers les clusters externes les plus récemment sollicités. À la réouverture, ce vecteur sert de requête initiale pour pré-charger (prefetch) les données externes pertinentes avant même que l'utilisateur ne pose sa première question.

Snapshot de session : S_t = encode(graines_actives, quarantaine, criticité_moy, clusters_récents)

Reprise : prefetch(L2, top_k(cos_sim(S_t, index_L2))) \to cache local prêt

Analogie clinique. Au réveil, un praticien ne re-parcourt pas l'intégralité de ses dossiers patients pour savoir où il en est. Son cerveau dispose d'un état consolidé — un checkpoint — qui le remet immédiatement dans son contexte professionnel. Le snapshot de session joue exactement ce rôle pour le LLM.

[Inférence] Ce mécanisme résout le problème de latence du stockage externe identifié dans les versions précédentes : le coût de la première requête passe de O(N) (scan complet) à O(k) (prefetch ciblé), rendant la mémoire distribuée viable en temps réel.

3.3 Distillation Sélective (consolidation offline)

Périodiquement (offline), un processus d'extraction s'exécute : quelles leçons abstraites extraire des interactions récentes ? Le contenu privé (données utilisateur brutes) est purgé après distillation ; les règles généralisées, insights et patterns sont intégrés via réentraînement doux (soft LoRA, continual RL).

[Inférence] Ce mécanisme transforme une limitation actuelle des LLM — l'oubli entre sessions — en fonctionnalité : le système apprend sans retenir les données personnelles. L'épisode s'efface, le savoir reste.

Analogie clinique. Un chirurgien-dentiste oublie les détails de la consultation du 15 mars, mais retient qu'un certain profil de patient réagit mal à tel anesthésique. C'est la distillation en pratique : l'épisode privé s'efface, la leçon clinique persiste.

3.4 Métabolisme d'élimination actif (L3)

Plutôt que FIFO (ancienneté) ou LRU (récence), nous proposons une purge pondérée par criticité. Une trace ancienne mais critique (règle de calcul validée) est conservée ; une trace récente mais marginale est oubliée.

Priorité de conservation : p = f(divergence, surprise, criticité, corroboration)

Divergence vectorielle : divergence = 1 - cos_sim(trace, index_moyen)

Fidélité sémantique (DLM-Scope) : fidélité = α \cdot EV_norm - β \cdot ΔL_norm

Contrainte énergétique dynamique : révision si : gain_information > coût_calcul

Probabilité de purge (garbage collection) : P_purge(i) = temps_inactivité / (criticité(i) \times N_corroborations)

Le nettoyage n'est jamais exécuté en temps réel. Il se déclenche lors des périodes de faible sollicitation (consolidation offline), pendant lesquelles le système réorganise son index, purge les vecteurs orphelins, et coupe les liens sémantiques très faibles (downscaling synaptique) pour augmenter le rapport signal/bruit.

Analogie biologique — Système glymphatique. Découvert par Nedergaard en 2012 [21], le système glymphatique permet l'évacuation des déchets neurotoxiques — notamment la protéine bêta-amyloïde — principalement pendant le sommeil profond à ondes lentes. Une altération de ce nettoyage (apnées du sommeil, micro-éveils) entraîne une accumulation toxique associée à la maladie d'Alzheimer. De la même manière, un modèle privé de cycles offline de nettoyage par un flux de requêtes ininterrompu s'intoxiquera sous le poids de ses propres redondances vectorielles. La purge pondérée par criticité est l'équivalent computationnel de la clairance glymphatique : les données triviales sont évacuées, les données critiques sont immunisées.

3.5 Régulation métacognitive

Un mécanisme de feedback inhibiteur prévient la sur-correction sur un mauvais exemple récent. Avant tout ajustement, le système vérifie la corroboration (accord multi-sources, cohérence avec le prior bayésien) et attend la consolidation offline (validation croisée ou approbation humaine).

[Inférence] Ce régulateur empêche qu'un souvenir trop saillant — un outlier statistique, un cas exceptionnel — ne déforme le comportement général. Les émotions humaines renforcent la mémoire mais peuvent la déformer ; la saillance computationnelle présente le même risque [19].

Analogie clinique. L'exemple de H. pylori — hypothèse rejetée pendant des années, puis validée par un Nobel — illustre pourquoi la quarantaine pondérée est préférable au rejet définitif. Un bon praticien ne rejette jamais définitivement un diagnostic différentiel improbable.

3.6 Calibration sociale (mécanisme transversal)

Un système qui apprend en isolation finit par dériver. Nous proposons un mécanisme de calibration périodique contre un consensus externe : benchmarks publics, oracles spécialisés, ou confrontation entre instances du même modèle sur des tâches de vérification.

[Hypothèse] Cet apprentissage « social » est analogue à la formation continue des praticiens médicaux : on ne progresse pas seul, on se calibre continuellement contre les pairs et les standards de la profession. Aucun système de mémoire isolé ne peut garantir sa propre fiabilité sans ancrage externe [3].

4. Alignement avec l'état de l'art (2025–2026)

Continual Learning : Kirkpatrick et al. [1] ont posé le problème de l'oubli catastrophique avec EWC. Les approches récentes (Nested Learning [14], Titans/MAC) adressent ce défi. Notre métabolisme d'élimination y ajoute une régulation énergétique explicite.

Memory for Agents : Mem0 [18], Zep, LangMem reconnaissent que les agents ont besoin d'une mémoire persistante stratifiée. Notre séparation index/stockage + distillation y apporte une couche d'économie et de privacité.

Sparse Inference : DeepSeek-MoE [12], test-time scaling. Notre notion de criticité et de budget dynamique s'aligne sur cette quête d'efficacité énergétique.

Self-Correction : Huang et al. [3] ont montré les limites de l'auto-correction sans feedback externe ; SCoRe [9] utilise le RL pour contourner le problème. Notre architecture intègre un ancrage externe obligatoire.

Briques disponibles (mars 2026) : Milvus (vectorstore), Mercury 2 [10] (diffusion linguistique <1s), SAE/DLM-Scope (fidélité sémantique), SuRe [15] (score de surprise), SYNAPSE [16] (spreading activation).

5. Limitations et questions ouvertes

Gouvernance des seuils

Qui décide qu'une étude peer-reviewed pèse plus qu'un témoignage utilisateur ? Comment gérer les désaccords scientifiques contemporains ? Les cadres éthiques d'arbitrage de la corroboration restent à définir.

Coût de la régulation

L'extraction de patterns offline, le calcul de criticité et la reconstruction par diffusion impliquent un coût non nul. La rentabilité vs. une mémoire non régulée reste à valider empiriquement.

Fidélité de la reconstruction

Mercury 2 et les SAE sont prometteurs, mais la reconstruction de traces épisodiques compressées à haute fidélité sémantique reste à démontrer à grande échelle. [Hypothèse]

Sécurité du stockage distribué

Externaliser la mémoire sur l'infrastructure utilisateur introduit des risques d'intégrité (corruption, injection). Les mécanismes de watermarking et de vérification de provenance [8] sont nécessaires mais insuffisamment testés en production.

6. Potentiel d'impact

Si validée, cette architecture adresserait trois directions actives en 2026 :

Continual Learning — apprentissage online sans oubli catastrophique.
Privacy-Preserving Agents — apprendre de l'utilisateur en oubliant ses données privées.
Energy-Efficient LLMs — mémoire régulée = moins d'hallucination = moins de tokens inutiles.

Le point le plus original : le métabolisme d'élimination pondéré par criticité. Ce problème — l'accumulation vectorielle toxique dans les agents long-horizon — est réel et peu exploré.

7. Conclusion

Cette architecture n'est pas une invention ex nihilo mais une synthèse pragmatique de briques technologiques 2025–2026, organisée autour d'une intuition centrale : un système intelligent doit gérer sa mémoire comme un organisme vivant sous contrainte énergétique. On ne gagne pas au début — on apprend à gagner. Et pour apprendre, il faut savoir oublier ce qui encombre, retenir ce qui instruit, et se calibrer continuellement contre la réalité externe.

L'ambition n'est pas de résoudre tous ces problèmes, mais de montrer qu'ils sont couplés et qu'une architecture intégrée — séparation, distillation, métabolisme — est plus prometteuse que des solutions isolées.

Références

[1] Kirkpatrick et al. — « Overcoming catastrophic forgetting in neural networks », PNAS, 2017. pnas.org

[2] Shumailov et al. — « AI models collapse when trained on recursively generated data », Nature, 2024.

[3] Huang et al. — « Large Language Models Cannot Self-Correct Reasoning Yet », ICLR, 2024.

[4] Skierś et al. — « Joint Diffusion Models in Continual Learning (JDCL) », ICCV, 2025. arxiv.org

[5] Masip et al. — « Continual Learning of Diffusion Models with Generative Distillation », CoLLAs, 2025. mlr.press

[6] Van de Ven et al. — « GUIDE: Guidance-based Incremental Learning with Diffusion Models », 2024. arxiv.org

[7] Latent Replay pour modèles de diffusion, 2025. arxiv.org

[8] UC San Diego — Watermarking et prévention du model collapse, AI Safety 2025.

[9] Kumar et al. — « Training LLMs to Self-Correct via Reinforcement Learning (SCoRe) », Google DeepMind, 2024. arxiv.org

[10] Inception Labs — « Mercury 2 », 2026. inceptionlabs.ai

[11] DeepSeek AI — « DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL », 2025.

[12] DeepSeek AI — « mHC: Manifold-Constrained Hyper-Connections », 2026.

[13] Schmidt, E. — Témoignage devant le House Committee on Energy and Commerce, 2025.

[14] Google — Nested Learning, NeurIPS 2025.

[15] SuRe — Surprise-driven Replay, NeurIPS 2025.

[16] SYNAPSE — Spreading Activation for LLM Memory, Jan. 2026.

[17] DLM-Scope — Semantic fidelity metrics via SAE (Explained Variance + Delta Loss).

[18] Chhikara et al. — « Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory », arXiv, avr. 2025. arxiv.org

[19] McGaugh, J.L. — « The amygdala modulates the consolidation of memories of emotionally arousing experiences », Annual Review of Neuroscience, 2004.

[20] Kahneman, D. — « Thinking, Fast and Slow », 2011. Architecture Système 1 / Système 2.

[21] Iliff et al. / Nedergaard, M. — « A Paravascular Pathway Facilitates CSF Flow Through the Brain Parenchyma (Système Glymphatique) », Science Translational Medicine, 2012.

Abstract. This position paper proposes a hybrid memory architecture for large language models (LLMs), organized around three contributions: (1) a latent index / sovereign external storage separation, (2) selective distillation that preserves abstract lessons while forgetting private data, and (3) an active elimination metabolism weighted by criticality and multi-source corroboration. The architecture builds on existing technological building blocks (Mem0, SAE/DLM-Scope, Mercury 2, SYNAPSE) and addresses three major LLM gaps: absence of true continual learning, unregulated vector accumulation, and the privacy–generalization tension. Biological analogies serve as heuristic architectural guides, not mechanistic validation.

1. Motivation: why this problem matters

Current LLMs retain nothing between sessions. Every conversation starts from scratch — a considerable computational waste, as the same reasoning must be reproduced indefinitely. This problem is coupled with three challenges identified in recent literature:

Catastrophic forgetting — integrating new knowledge degrades existing knowledge [1].
Toxic vector accumulation — context grows without regulation; long-memory systems (agents) accumulate noise that amplifies hallucinations.
Privacy–generalization tension — GDPR and data sovereignty vs. the need to learn from every user interaction.

Clinical analogy. A practitioner forgets the details of each past consultation but retains the diagnostic lessons. They do not confuse "remembering the patient" with "having learned from the case." This is precisely the separation we propose for LLMs.

2. Three contributions

1 · Index / Storage Separation

Compressed internal seeds (lightweight vectors) for O(log N) retrieval. Independent external storage for complete traces. Users control their data.

2 · Selective Distillation

Private data is forgotten after offline consolidation. Abstract lessons (patterns, rules) are preserved and integrated via soft fine-tuning (LoRA, continual RL).

3 · Elimination Metabolism

Active purge weighted by criticality (signal/noise), corroboration (multi-source agreement), and offline consolidation. Prevents vector poisoning in long-horizon agents.

These three mechanisms are interdependent: index/storage separation enables selective distillation (one can only distill what has been separated), and the metabolism regulates both (by eliminating obsolete seeds and traces).

3. Proposed architecture

3.1 Three-layer structure

┌──────────────────────────────────────────────────┐ │ LLM (embedding + forward pass) │ │ Query projection → latent seed │ └──────────────┬───────────────────────────────────┘ │ ┌───────▼──────────┐ │ L1: Local Index │ Compressed seeds (latent vectors) │ - Divergence │ Fast retrieval O(log N) │ - Salience │ Criticality + surprise metadata └───────┬──────────┘ │ ┌───────▼──────────────────┐ │ L2: External Storage │ Persistent episodic memory │ - Vectorstore (Milvus) │ User sovereignty │ - Temporal metadata │ Complete traces └───────┬──────────────────┘ │ ┌───────▼──────────────────┐ │ L3: Active Metabolism │ Criticality-weighted purge │ - Offline distillation │ Abstract consolidation │ - Salience regulation │ Anti-over-correction └──────────────────────────┘

Figure 1. Three-layer architecture with regulation feedback loops. L1 does not modify model weights — it operates on an external index.

3.2 Index / Content separation (L1 ↔ L2)

The internal index only stores compressed seeds: lightweight vectors (~100–300 dimensions) with salience, criticality, and provenance metadata. External storage holds complete traces and remains model-independent. This separation yields three consequences:

Radical economy — seed/document compression ratio up to 100:1, reducing GPU storage cost.
Scalability — the index stays bounded while external storage grows on cheap media.
Sovereignty — sensitive data stays on user infrastructure; the model holds only anonymized pointers.

3.2.1 Session handshake protocol

The index/storage separation raises a practical question: upon session reopening, the model must recover the relevant state of external memory without scanning all of storage. We propose an automatic contextual state snapshot generated at the close of each session.

This snapshot is a compact vector encoding the current index topology: active seeds, quarantined seeds, mean criticality score, latest distilled patterns, and pointers to the most recently queried external clusters. Upon reopening, this vector serves as an initial query to prefetch relevant external data before the user even asks their first question.

Session snapshot: S_t = encode(active_seeds, quarantine, mean_criticality, recent_clusters)

Resumption: prefetch(L2, top_k(cos_sim(S_t, L2_index))) \to local cache ready

Clinical analogy. Upon waking, a practitioner does not re-read all patient files to know where they stand. Their brain has a consolidated state — a checkpoint — that immediately restores professional context. The session snapshot plays exactly this role for the LLM.

[Inference] This mechanism solves the external storage latency problem identified in previous versions: first-query cost drops from O(N) (full scan) to O(k) (targeted prefetch), making distributed memory viable in real time.

3.3 Selective Distillation (offline consolidation)

Periodically (offline), an extraction process runs: what abstract lessons to draw from recent interactions? Raw private data is purged after distillation; generalized rules, insights, and patterns are integrated via soft fine-tuning (soft LoRA, continual RL).

[Inference] This mechanism transforms a current LLM limitation — forgetting between sessions — into a feature: the system learns without retaining personal data. The episode fades, the knowledge remains.

Clinical analogy. A dental surgeon forgets the details of the March 15th consultation but retains that a certain patient profile reacts poorly to a given anesthetic. Distillation in practice: the private episode fades, the clinical lesson persists.

3.4 Active elimination metabolism (L3)

Rather than FIFO (age-based) or LRU (recency-based), we propose criticality-weighted purging. An old but critical trace (validated calculation rule) is preserved; a recent but marginal trace is forgotten.

Conservation priority: p = f(divergence, surprise, criticality, corroboration)

Vector divergence: divergence = 1 - cos_sim(trace, mean_index)

Semantic fidelity (DLM-Scope): fidelity = α \cdot EV_norm - β \cdot ΔL_norm

Dynamic energy constraint: revise if: information_gain > computation_cost

Purge probability (garbage collection): P_purge(i) = inactivity_time / (criticality(i) \times N_corroborations)

Cleanup never runs in real time. It triggers during low-demand periods (offline consolidation), during which the system reorganizes its index, purges orphaned vectors, and severs very weak semantic links (synaptic downscaling) to increase the signal-to-noise ratio.

Biological analogy — Glymphatic system. Discovered by Nedergaard in 2012 [21], the glymphatic system enables evacuation of neurotoxic waste — notably beta-amyloid protein — primarily during deep slow-wave sleep. Impaired cleanup (sleep apnea, micro-arousals) leads to toxic accumulation associated with Alzheimer's disease. Similarly, a model deprived of offline cleanup cycles by uninterrupted query streams will become poisoned under the weight of its own vectorial redundancies. Criticality-weighted purging is the computational equivalent of glymphatic clearance: trivial data is evacuated, critical data is immune.

3.5 Metacognitive regulation

An inhibitory feedback mechanism prevents over-correction on a bad recent example. Before any adjustment, the system checks corroboration (multi-source agreement, Bayesian prior coherence) and awaits offline consolidation (cross-validation or human approval).

[Inference] This regulator prevents an overly salient memory — a statistical outlier, an exceptional case — from distorting general behavior. Human emotions strengthen memory but can distort it; computational salience carries the same risk [19].

Clinical analogy. The H. pylori example — a hypothesis rejected for years, then validated by a Nobel Prize — illustrates why weighted quarantine is preferable to definitive rejection. A good practitioner never permanently discards an unlikely differential diagnosis.

3.6 Social calibration (cross-cutting mechanism)

A system that learns in isolation eventually drifts. We propose periodic calibration against external consensus: public benchmarks, specialized oracles, or cross-instance confrontation on verification tasks.

[Hypothesis] This "social" learning mirrors continuing medical education: practitioners do not progress alone — they continuously calibrate against peers and professional standards. No isolated memory system can guarantee its own reliability without external anchoring [3].

4. Alignment with the state of the art (2025–2026)

Continual Learning: Kirkpatrick et al. [1] established the catastrophic forgetting problem with EWC. Recent approaches (Nested Learning [14], Titans/MAC) address this challenge. Our elimination metabolism adds explicit energy regulation.

Memory for Agents: Mem0 [18], Zep, LangMem acknowledge that agents need stratified persistent memory. Our index/storage separation + distillation adds an economy and privacy layer.

Sparse Inference: DeepSeek-MoE [12], test-time scaling. Our criticality and dynamic budget concepts align with this energy efficiency pursuit.

Self-Correction: Huang et al. [3] showed the limits of self-correction without external feedback; SCoRe [9] uses RL to circumvent the problem. Our architecture integrates mandatory external anchoring.

Available building blocks (March 2026): Milvus (vectorstore), Mercury 2 [10] (linguistic diffusion <1s), SAE/DLM-Scope [17] (semantic fidelity), SuRe [15] (surprise score), SYNAPSE [16] (spreading activation).

5. Limitations and open questions

Threshold governance

Who decides that a peer-reviewed study outweighs a user testimonial? How to handle contemporary scientific disagreements? Ethical frameworks for corroboration arbitration remain undefined.

Regulation cost

Offline pattern extraction, criticality computation, and diffusion-based reconstruction involve non-zero cost. Profitability vs. unregulated memory needs empirical validation.

Reconstruction fidelity

Mercury 2 and SAEs are promising, but high-fidelity reconstruction of compressed episodic traces at scale remains to be demonstrated. [Hypothesis]

Distributed storage security

Externalizing memory to user infrastructure introduces integrity risks (corruption, injection). Watermarking and provenance verification [8] are necessary but insufficiently tested in production.

6. Potential impact

If validated, this architecture would address three active directions in 2026:

Continual Learning — true online learning without catastrophic forgetting.
Privacy-Preserving Agents — learning from users while forgetting their private data.
Energy-Efficient LLMs — regulated memory = less hallucination = fewer wasted tokens.

The most original contribution: criticality-weighted elimination metabolism. The problem it addresses — toxic vector accumulation in long-horizon agents — is real and underexplored.

7. Conclusion

This architecture is not an invention ex nihilo but a pragmatic synthesis of 2025–2026 technological building blocks, organized around a central intuition: an intelligent system must manage its memory like a living organism under energy constraints. You don't win at the beginning — you learn to win. And to learn, you must know how to forget what clutters, retain what instructs, and continuously calibrate against external reality.

The ambition is not to solve all these problems, but to show that they are coupled and that an integrated architecture — separation, distillation, metabolism — is more promising than isolated solutions.

References

[1] Kirkpatrick et al. — "Overcoming catastrophic forgetting in neural networks", PNAS, 2017. pnas.org

[2] Shumailov et al. — "AI models collapse when trained on recursively generated data", Nature, 2024.

[3] Huang et al. — "Large Language Models Cannot Self-Correct Reasoning Yet", ICLR, 2024.

[4] Skierś et al. — "Joint Diffusion Models in Continual Learning (JDCL)", ICCV, 2025. arxiv.org

[5] Masip et al. — "Continual Learning of Diffusion Models with Generative Distillation", CoLLAs, 2025. mlr.press

[6] Van de Ven et al. — "GUIDE: Guidance-based Incremental Learning with Diffusion Models", 2024. arxiv.org

[7] Latent Replay for diffusion models, 2025. arxiv.org

[8] UC San Diego — Watermarking and model collapse prevention, AI Safety 2025.

[9] Kumar et al. — "Training LLMs to Self-Correct via Reinforcement Learning (SCoRe)", Google DeepMind, 2024. arxiv.org

[10] Inception Labs — "Mercury 2", 2026. inceptionlabs.ai

[11] DeepSeek AI — "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL", 2025.

[12] DeepSeek AI — "mHC: Manifold-Constrained Hyper-Connections", 2026.

[13] Schmidt, E. — Testimony before the House Committee on Energy and Commerce, 2025.

[14] Google — Nested Learning, NeurIPS 2025.

[15] SuRe — Surprise-driven Replay, NeurIPS 2025.

[16] SYNAPSE — Spreading Activation for LLM Memory, Jan. 2026.

[17] DLM-Scope — Semantic fidelity metrics via SAE (Explained Variance + Delta Loss).

[18] Chhikara et al. — "Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory", arXiv, Apr. 2025. arxiv.org

[19] McGaugh, J.L. — "The amygdala modulates the consolidation of memories of emotionally arousing experiences", Annual Review of Neuroscience, 2004.

[20] Kahneman, D. — "Thinking, Fast and Slow", 2011. System 1 / System 2 architecture.

[21] Iliff et al. / Nedergaard, M. — "A Paravascular Pathway Facilitates CSF Flow Through the Brain Parenchyma (Glymphatic System)", Science Translational Medicine, 2012.