Nützliche Erinnerungen werden fehlerhaft, wenn sie kontinuierlich von LLMs aktualisiert werden.

Zusammenfassung

Das Lernen aus vergangenen Erfahrungen profitiert von zwei komplementären Formen des Gedächtnisses: episodische Spuren – rohe Abläufe des Geschehenen – und konsolidierte Abstraktionen, die aus vielen Episoden destilliert und als wiederverwendbare schemaartige Lektionen vorliegen. Aktuelle agentische Gedächtnissysteme verfolgen die konsolidierte Form: Ein LLM schreibt vergangene Trajektorien in einen textuellen Gedächtnisspeicher um, den es kontinuierlich mit neuen Interaktionen aktualisiert, was selbstverbessernde Agenten ohne Parameteraktualisierungen verspricht. Dennoch stellen wir fest, dass solche von heutigen LLMs erzeugten konsolidierten Erinnerungen selbst dann oft fehlerhaft sind, wenn sie aus nützlichen Erfahrungen stammen. Im Verlauf der Konsolidierung steigt der Nutzen des Gedächtnisses zunächst an, nimmt dann ab und kann sogar unter die Basislinie ohne Gedächtnis fallen. Noch überraschender: Selbst bei der Konsolidierung aus Ground-Truth-Lösungen versagt GPT-5.4 bei 54 % einer Reihe von ARC-AGI-Problemen, die es zuvor ohne Gedächtnis gelöst hatte. Wir führen diesen Rückgang auf den Konsolidierungsschritt selbst zurück, nicht auf die zugrunde liegende Erfahrung: Dieselben Trajektorien ergeben unter verschiedenen Aktualisierungsplänen qualitativ unterschiedliche Erinnerungen, und eine rein episodische Kontrolle, die diese Trajektorien einfach beibehält, bleibt mit den von uns getesteten Konsolidierern konkurrenzfähig. In einer kontrollierten ARC-AGI-Stream-Umgebung, die Aktionen zum Behalten, Löschen und Konsolidieren offenlegt, bewahren Agenten standardmäßig rohe Episoden auf und verdoppeln die Genauigkeit ihrer Gegenstücke mit erzwungener Konsolidierung; die vollständige Deaktivierung der Konsolidierung (nur episodische Verwaltung) erreicht dieses automatische Regime. In der Praxis sollte ein robustes Agentengedächtnis rohe Episoden als erstklassige Evidenz behandeln und die Konsolidierung explizit steuern, anstatt sie nach jeder Interaktion auszulösen. In Zukunft erfordert ein zuverlässiges agentisches Gedächtnis LLMs, die konsolidieren können, ohne die Evidenz, auf die sie angewiesen sind, zu überschreiben.

English

Learning from past experience benefits from two complementary forms of memory: episodic traces -- raw trajectories of what happened -- and consolidated abstractions distilled across many episodes into reusable, schema-like lessons. Recent agentic-memory systems pursue the consolidated form: an LLM rewrites past trajectories into a textual memory bank that it continuously updates with new interactions, promising self-improving agents without parameter updates. Yet we find that such consolidated memories produced by today's LLMs are often faulty even when derived from useful experiences. As consolidation proceeds, memory utility first rises, then degrades, and can fall below the no-memory baseline. More surprisingly, even when consolidating from ground-truth solutions, GPT-5.4 fails on 54% of a set of ARC-AGI problems it had previously solved without memory. We trace the regression to the consolidation step rather than the underlying experience: the same trajectories yield qualitatively different memories under different update schedules, and an episodic-only control that simply retains those trajectories remains competitive with the consolidators we test. In a controlled ARC-AGI Stream environment that exposes Retain, Delete, and Consolidate actions, agents preserve raw episodes by default and double the accuracy of their forced-consolidation counterparts; disabling consolidation entirely (episodic management only) matches this auto regime. Practically, robust agent memory should treat raw episodes as first-class evidence and gate consolidation explicitly rather than firing it after every interaction. Looking forward, reliable agentic memory will require LLMs that can consolidate without overwriting the evidence they depend on.

Nützliche Erinnerungen werden fehlerhaft, wenn sie kontinuierlich von LLMs aktualisiert werden.

Useful Memories Become Faulty When Continuously Updated by LLMs

Zusammenfassung

Support