LLM에 의해 지속적으로 업데이트되면 유용한 기억에 오류가 생긴다
Useful Memories Become Faulty When Continuously Updated by LLMs
May 13, 2026
저자: Dylan Zhang, Yanshan Lin, Zhengkun Wu, Yihang Sun, Bingxuan Li, Dianqi Li, Hao Peng
cs.AI
초록
과거 경험으로부터 학습하는 것은 두 가지 상호 보완적 형태의 기억, 즉 특정 사건의 원시 궤적을 담은 일화적 흔적과 여러 사건을 걸쳐 재사용 가능한 도식과 같은 교훈으로 응축된 통합된 추상화의 이점을 활용한다. 최근의 에이전트 메모리 시스템은 통합된 형태를 추구한다. 즉, 대규모 언어 모델(LLM)이 과거 궤적을 텍스트 기반 메모리 뱅크로 재작성하고, 새로운 상호작용이 발생할 때마다 이를 지속적으로 업데이트하여 매개변수 업데이트 없이도 자기 개선 에이전트를 제공하겠다는 것이다. 그러나 오늘날의 LLM이 생성하는 이러한 통합된 기억은 유용한 경험에서 비롯된 경우라도 종종 오류가 있음을 발견했다. 통합 과정이 진행됨에 따라 메모리 효용성은 처음에는 상승하다가 이후 저하되며, 메모리가 없는 기준선보다 낮아질 수 있다. 더욱 놀라운 점은, 참 정답 해법에서 통합을 수행하더라도 GPT-5.4가 이전에 메모리 없이도 해결했던 ARC-AGI 문제 세트의 54%에서 실패한다는 것이다. 이러한 성능 저하의 원인을 근본 경험보다는 통합 단계에서 추적할 수 있었다. 즉, 동일한 궤적이라도 업데이트 일정에 따라 질적으로 다른 기억을 생성하며, 궤적을 단순히 유지하는 일화적 통제군은 우리가 테스트한 통합자들과 여전히 경쟁력을 유지했다. Retain, Delete, Consolidate 행동을 노출하는 통제된 ARC-AGI Stream 환경에서 에이전트는 기본적으로 원시 에피소드를 보존함으로써 강제 통합 방식 대비 정확도를 두 배로 높였으며, 통합을 완전히 비활성화(일화적 관리만 수행)한 경우 이 자동 체계와 동등한 성능을 보였다. 실용적으로 볼 때, 강건한 에이전트 메모리는 원시 에피소드를 일차적 증거로 취급하고, 모든 상호작용 후에 통합을 실행하기보다 명시적으로 통합을 게이트해야 한다. 앞으로 신뢰할 수 있는 에이전트 메모리를 위해서는 LLM이 의존하는 증거를 덮어쓰지 않으면서 통합을 수행할 수 있어야 할 것이다.
English
Learning from past experience benefits from two complementary forms of memory: episodic traces -- raw trajectories of what happened -- and consolidated abstractions distilled across many episodes into reusable, schema-like lessons. Recent agentic-memory systems pursue the consolidated form: an LLM rewrites past trajectories into a textual memory bank that it continuously updates with new interactions, promising self-improving agents without parameter updates. Yet we find that such consolidated memories produced by today's LLMs are often faulty even when derived from useful experiences. As consolidation proceeds, memory utility first rises, then degrades, and can fall below the no-memory baseline. More surprisingly, even when consolidating from ground-truth solutions, GPT-5.4 fails on 54% of a set of ARC-AGI problems it had previously solved without memory. We trace the regression to the consolidation step rather than the underlying experience: the same trajectories yield qualitatively different memories under different update schedules, and an episodic-only control that simply retains those trajectories remains competitive with the consolidators we test. In a controlled ARC-AGI Stream environment that exposes Retain, Delete, and Consolidate actions, agents preserve raw episodes by default and double the accuracy of their forced-consolidation counterparts; disabling consolidation entirely (episodic management only) matches this auto regime. Practically, robust agent memory should treat raw episodes as first-class evidence and gate consolidation explicitly rather than firing it after every interaction. Looking forward, reliable agentic memory will require LLMs that can consolidate without overwriting the evidence they depend on.