Las memorias útiles se vuelven defectuosas cuando son actualizadas continuamente por LLMs.

Resumen

Aprender de la experiencia pasada se beneficia de dos formas complementarias de memoria: los rastros episódicos (trayectorias brutas de lo que ocurrió) y las abstracciones consolidadas, destiladas a partir de múltiples episodios en lecciones reutilizables similares a esquemas. Los sistemas de memoria agentiva recientes persiguen la forma consolidada: un LLM reescribe trayectorias pasadas en un banco de memoria textual que actualiza continuamente con nuevas interacciones, prometiendo agentes que se auto-mejoran sin actualizar parámetros. Sin embargo, encontramos que dichas memorias consolidadas producidas por los LLM actuales suelen ser defectuosas, incluso cuando se derivan de experiencias útiles. A medida que avanza la consolidación, la utilidad de la memoria primero aumenta, luego se degrada y puede caer por debajo del nivel de referencia sin memoria. Más sorprendentemente, incluso al consolidar a partir de soluciones verdaderas, GPT-5.4 falla en el 54% de un conjunto de problemas de ARC-AGI que había resuelto previamente sin memoria. Atribuimos la regresión al paso de consolidación, no a la experiencia subyacente: las mismas trayectorias generan memorias cualitativamente diferentes bajo distintos programas de actualización, y un control solo episódico que simplemente retiene esas trayectorias sigue siendo competitivo con los consolidadores que probamos. En un entorno controlado de ARC-AGI Stream que expone las acciones Retener, Eliminar y Consolidar, los agentes preservan los episodios brutos por defecto y duplican la precisión de sus contrapartes de consolidación forzada; deshabilitar por completo la consolidación (solo gestión episódica) iguala este régimen automático. En la práctica, una memoria agentiva robusta debe tratar los episodios brutos como evidencia de primera clase y activar la consolidación de forma explícita, en lugar de ejecutarla tras cada interacción. De cara al futuro, una memoria agentiva fiable requerirá LLM que puedan consolidar sin sobrescribir la evidencia de la que dependen.

English

Learning from past experience benefits from two complementary forms of memory: episodic traces -- raw trajectories of what happened -- and consolidated abstractions distilled across many episodes into reusable, schema-like lessons. Recent agentic-memory systems pursue the consolidated form: an LLM rewrites past trajectories into a textual memory bank that it continuously updates with new interactions, promising self-improving agents without parameter updates. Yet we find that such consolidated memories produced by today's LLMs are often faulty even when derived from useful experiences. As consolidation proceeds, memory utility first rises, then degrades, and can fall below the no-memory baseline. More surprisingly, even when consolidating from ground-truth solutions, GPT-5.4 fails on 54% of a set of ARC-AGI problems it had previously solved without memory. We trace the regression to the consolidation step rather than the underlying experience: the same trajectories yield qualitatively different memories under different update schedules, and an episodic-only control that simply retains those trajectories remains competitive with the consolidators we test. In a controlled ARC-AGI Stream environment that exposes Retain, Delete, and Consolidate actions, agents preserve raw episodes by default and double the accuracy of their forced-consolidation counterparts; disabling consolidation entirely (episodic management only) matches this auto regime. Practically, robust agent memory should treat raw episodes as first-class evidence and gate consolidation explicitly rather than firing it after every interaction. Looking forward, reliable agentic memory will require LLMs that can consolidate without overwriting the evidence they depend on.

Las memorias útiles se vuelven defectuosas cuando son actualizadas continuamente por LLMs.

Useful Memories Become Faulty When Continuously Updated by LLMs

Resumen

Support