Полезные воспоминания становятся ненадежными при их непрерывном обновлении большими языковыми моделями.

Аннотация

Обучение на основе прошлого опыта выигрывает от двух взаимодополняющих форм памяти: эпизодических следов — необработанных траекторий произошедшего — и консолидированных абстракций, извлечённых из множества эпизодов и преобразованных в многократно используемые схематичные уроки. Современные агентные системы памяти ориентированы на консолидированную форму: LLM переписывает прошлые траектории в текстовое хранилище памяти, непрерывно обновляемое новыми взаимодействиями, что обещает создание самообучающихся агентов без изменения параметров. Однако мы обнаружили, что такие консолидированные воспоминания, порождаемые сегодняшними LLM, часто оказываются ошибочными, даже если происходят из полезного опыта. По мере продолжения консолидации полезность памяти сначала растёт, затем снижается и может упасть ниже базового уровня без памяти. Ещё более удивительно, что при консолидации на основе эталонных решений GPT-5.4 не справляется с 54% задач ARC-AGI, которые ранее решала без памяти. Мы связываем регрессию с этапом консолидации, а не с лежащим в основе опытом: одни и те же траектории дают качественно разные воспоминания при разных графиках обновления, а контроль только с эпизодической памятью, просто сохраняющий эти траектории, остаётся конкурентоспособным по сравнению с протестированными консолидаторами. В контролируемой среде ARC-AGI Stream, предусматривающей действия «Сохранить», «Удалить» и «Консолидировать», агенты по умолчанию сохраняют необработанные эпизоды и вдвое превосходят по точности свои аналоги с принудительной консолидацией; полное отключение консолидации (только эпизодическое управление) соответствует этому автоматическому режиму. На практике надёжная агентная память должна рассматривать необработанные эпизоды как первостепенное доказательство и явно ограничивать консолидацию, а не запускать её после каждого взаимодействия. В перспективе создание надёжной агентной памяти потребует LLM, способных консолидировать, не перезаписывая доказательства, от которых они зависят.

English

Learning from past experience benefits from two complementary forms of memory: episodic traces -- raw trajectories of what happened -- and consolidated abstractions distilled across many episodes into reusable, schema-like lessons. Recent agentic-memory systems pursue the consolidated form: an LLM rewrites past trajectories into a textual memory bank that it continuously updates with new interactions, promising self-improving agents without parameter updates. Yet we find that such consolidated memories produced by today's LLMs are often faulty even when derived from useful experiences. As consolidation proceeds, memory utility first rises, then degrades, and can fall below the no-memory baseline. More surprisingly, even when consolidating from ground-truth solutions, GPT-5.4 fails on 54% of a set of ARC-AGI problems it had previously solved without memory. We trace the regression to the consolidation step rather than the underlying experience: the same trajectories yield qualitatively different memories under different update schedules, and an episodic-only control that simply retains those trajectories remains competitive with the consolidators we test. In a controlled ARC-AGI Stream environment that exposes Retain, Delete, and Consolidate actions, agents preserve raw episodes by default and double the accuracy of their forced-consolidation counterparts; disabling consolidation entirely (episodic management only) matches this auto regime. Practically, robust agent memory should treat raw episodes as first-class evidence and gate consolidation explicitly rather than firing it after every interaction. Looking forward, reliable agentic memory will require LLMs that can consolidate without overwriting the evidence they depend on.

Полезные воспоминания становятся ненадежными при их непрерывном обновлении большими языковыми моделями.

Useful Memories Become Faulty When Continuously Updated by LLMs

Аннотация

Support