Les mémoires utiles deviennent erronées lorsqu'elles sont continuellement mises à jour par les LLMs.

Résumé

L'apprentissage tiré de l'expérience passée bénéficie de deux formes complémentaires de mémoire : les traces épisodiques (trajectoires brutes de ce qui s'est passé) et les abstractions consolidées, distillées à travers de nombreux épisodes en leçons réutilisables de type schéma. Les systèmes de mémoire agentique récents adoptent la forme consolidée : un LLM réécrit les trajectoires passées dans une banque de mémoire textuelle qu'il met continuellement à jour avec de nouvelles interactions, promettant des agents auto-améliorants sans mise à jour des paramètres. Pourtant, nous constatons que ces mémoires consolidées produites par les LLM actuels sont souvent défaillantes, même lorsqu'elles sont dérivées d'expériences utiles. Au fur et à mesure de la consolidation, l'utilité de la mémoire d'abord augmente, puis se dégrade, et peut tomber en dessous du niveau de référence sans mémoire. Plus surprenant encore, même lors de la consolidation à partir de solutions de référence, GPT-5.4 échoue sur 54 % d'un ensemble de problèmes ARC-AGI qu'il avait précédemment résolus sans mémoire. Nous attribuons cette régression à l'étape de consolidation plutôt qu'à l'expérience sous-jacente : les mêmes trajectoires produisent des mémoires qualitativement différentes selon les programmes de mise à jour, et un contrôle uniquement épisodique qui conserve simplement ces trajectoires reste compétitif avec les consolidateurs que nous testons. Dans un environnement contrôlé ARC-AGI Stream qui expose les actions Conserver, Supprimer et Consolider, les agents conservent les épisodes bruts par défaut et doublent la précision de leurs homologues à consolidation forcée ; la désactivation complète de la consolidation (gestion uniquement épisodique) correspond à ce régime automatique. En pratique, une mémoire agentique robuste devrait traiter les épisodes bruts comme des preuves de premier ordre et contrôler explicitement la consolidation plutôt que de la déclencher après chaque interaction. À l'avenir, une mémoire agentique fiable nécessitera des LLM capables de consolider sans écraser les preuves dont ils dépendent.

English

Learning from past experience benefits from two complementary forms of memory: episodic traces -- raw trajectories of what happened -- and consolidated abstractions distilled across many episodes into reusable, schema-like lessons. Recent agentic-memory systems pursue the consolidated form: an LLM rewrites past trajectories into a textual memory bank that it continuously updates with new interactions, promising self-improving agents without parameter updates. Yet we find that such consolidated memories produced by today's LLMs are often faulty even when derived from useful experiences. As consolidation proceeds, memory utility first rises, then degrades, and can fall below the no-memory baseline. More surprisingly, even when consolidating from ground-truth solutions, GPT-5.4 fails on 54% of a set of ARC-AGI problems it had previously solved without memory. We trace the regression to the consolidation step rather than the underlying experience: the same trajectories yield qualitatively different memories under different update schedules, and an episodic-only control that simply retains those trajectories remains competitive with the consolidators we test. In a controlled ARC-AGI Stream environment that exposes Retain, Delete, and Consolidate actions, agents preserve raw episodes by default and double the accuracy of their forced-consolidation counterparts; disabling consolidation entirely (episodic management only) matches this auto regime. Practically, robust agent memory should treat raw episodes as first-class evidence and gate consolidation explicitly rather than firing it after every interaction. Looking forward, reliable agentic memory will require LLMs that can consolidate without overwriting the evidence they depend on.

Les mémoires utiles deviennent erronées lorsqu'elles sont continuellement mises à jour par les LLMs.

Useful Memories Become Faulty When Continuously Updated by LLMs

Résumé

Support