Mem-π: Adaptief geheugen door te leren wanneer en wat te genereren

Samenvatting

Wij presenteren Mem-π, een raamwerk voor adaptief geheugen in large language model (LLM) agenten, waarbij nuttige richtlijnen op aanvraag worden gegenereerd in plaats van opgehaald uit externe geheugenopslag. Bestaande geheugengebaseerde agenten zijn doorgaans afhankelijk van op gelijkenis gebaseerde ophaling uit episodische geheugenbanken of vaardigheidsbibliotheken, waarbij statische items worden geretourneerd die vaak niet aansluiten bij de huidige context. Daarentegen gebruikt Mem-π een speciaal taal- of visie-taalmodel met eigen parameters, gescheiden van de downstream-agent, om contextspecifieke richtlijnen te genereren voor complexe taken. Het model beslist, afhankelijk van de huidige agentcontext, gezamenlijk wanneer het richtlijnen moet produceren en welke richtlijnen het moet produceren. We trainen het met een beslissings-inhoud ontkoppelde reinforcement learning (RL)-doelstelling, waardoor het zich kan onthouden van generatie wanneer dit niet nuttig zou zijn, en anders beknopte, nuttige richtlijnen kan produceren. Op diverse agentische benchmarks, variërend van webnavigatie, terminalgebaseerd toolgebruik en tekstgebaseerde belichaamde interactie, presteert Mem-π consistent beter dan op ophaling gebaseerde en eerdere RL-geoptimaliseerde geheugenbaselines, met een relatieve verbetering van meer dan 30% op webnavigatietaken.

English

We present Mem-π, a framework for adaptive memory in large language model (LLM) agents, where useful guidance is generated on demand rather than retrieved from external memory stores. Existing memory-augmented agents typically rely on similarity-based retrieval from episodic memory banks or skill libraries, returning static entries that often misalign with the current context. In contrast, Mem-π uses a dedicated language or vision-language model with its own parameters, separate from the downstream agent, to generate context-specific guidance for complex tasks. Conditioned on the current agent context, the model jointly decides when to produce guidance and what guidance to produce. We train it with a decision-content decoupled reinforcement learning (RL) objective, enabling it to abstain when generation would not help and otherwise produce concise, useful guidance. Across diverse agentic benchmarks spanning web navigation, terminal-based tool use, and text-based embodied interaction, Mem-π consistently outperforms retrieval-based and prior RL-optimized memory baselines, achieving over 30% relative improvement on web navigation tasks.