LLMによって継続的に更新されると、有用な記憶が誤ったものになる
Useful Memories Become Faulty When Continuously Updated by LLMs
May 13, 2026
著者: Dylan Zhang, Yanshan Lin, Zhengkun Wu, Yihang Sun, Bingxuan Li, Dianqi Li, Hao Peng
cs.AI
要旨
過去の経験から学ぶには、二つの相補的な記憶形態が役立つ。すなわち、生の軌跡としてのエピソード痕跡と、複数のエピソードから再利用可能なスキーマ的な教訓へと抽出された統合された抽象化である。最近のエージェント記憶システムは後者の形態を追求しており、LLMが過去の軌跡を書き換えてテキスト形式の記憶バンクに蓄積し、新しい相互作用で継続的に更新することで、パラメータ更新なしに自己改善するエージェントを実現するとされている。しかし、現在のLLMが生成するこのような統合記憶は、有用な経験に基づく場合でも、しばしば欠陥があることが分かった。統合を進めるにつれて、記憶の有用性は最初は向上するが、その後低下し、記憶なしのベースラインを下回ることさえある。さらに驚くべきことに、実際の解から統合を行った場合でも、GPT-5.4は以前に記憶なしで解いたARC-AGI問題の54%で失敗する。我々はこの性能低下の原因を、基となる経験ではなく統合段階に特定した。同じ軌跡でも、異なる更新スケジュールの下では質的に異なる記憶が生成され、単に軌跡を保持するエピソードのみの制御は、我々がテストした統合器と同等の性能を維持する。制御されたARC-AGI Stream環境において、Retain、Delete、Consolidateの各アクションが利用可能な場合、エージェントはデフォルトで生のエピソードを保持し、強制的に統合する場合と比較して精度が2倍になる。統合を完全に無効化(エピソード管理のみ)しても、この自動レジームと同等の結果が得られた。実用的には、ロバストなエージェント記憶は、生のエピソードを第一級の証拠として扱い、統合を毎回の相互作用後に自動実行するのではなく明示的に制御すべきである。将来的には、信頼性の高いエージェント記憶を実現するには、依存する証拠を上書きせずに統合できるLLMが必要となる。
English
Learning from past experience benefits from two complementary forms of memory: episodic traces -- raw trajectories of what happened -- and consolidated abstractions distilled across many episodes into reusable, schema-like lessons. Recent agentic-memory systems pursue the consolidated form: an LLM rewrites past trajectories into a textual memory bank that it continuously updates with new interactions, promising self-improving agents without parameter updates. Yet we find that such consolidated memories produced by today's LLMs are often faulty even when derived from useful experiences. As consolidation proceeds, memory utility first rises, then degrades, and can fall below the no-memory baseline. More surprisingly, even when consolidating from ground-truth solutions, GPT-5.4 fails on 54% of a set of ARC-AGI problems it had previously solved without memory. We trace the regression to the consolidation step rather than the underlying experience: the same trajectories yield qualitatively different memories under different update schedules, and an episodic-only control that simply retains those trajectories remains competitive with the consolidators we test. In a controlled ARC-AGI Stream environment that exposes Retain, Delete, and Consolidate actions, agents preserve raw episodes by default and double the accuracy of their forced-consolidation counterparts; disabling consolidation entirely (episodic management only) matches this auto regime. Practically, robust agent memory should treat raw episodes as first-class evidence and gate consolidation explicitly rather than firing it after every interaction. Looking forward, reliable agentic memory will require LLMs that can consolidate without overwriting the evidence they depend on.