Mem-π: Adaptives Gedächtnis durch Lernen, wann und was zu generieren ist

Zusammenfassung

Wir präsentieren Mem-π, ein Rahmenwerk für adaptives Gedächtnis in LLM-Agenten, bei dem nützliche Anleitungen bei Bedarf generiert und nicht aus externen Gedächtnisspeichern abgerufen werden. Bestehende gedächtniserweiterte Agenten verlassen sich typischerweise auf ähnlichkeitsbasiertes Abrufen aus episodischen Gedächtnisbanken oder Fertigkeitsbibliotheken und geben statische Einträge zurück, die oft nicht mit dem aktuellen Kontext übereinstimmen. Im Gegensatz dazu verwendet Mem-π ein dediziertes Sprach- oder Vision-Language-Modell mit eigenen Parametern, getrennt vom nachgelagerten Agenten, um kontextspezifische Anleitungen für komplexe Aufgaben zu generieren. Bedingt durch den aktuellen Agentenkontext entscheidet das Modell gemeinsam, wann es eine Anleitung erzeugen soll und welche Anleitung es erzeugen soll. Wir trainieren es mit einem entscheidungs-inhaltsentkoppelten Reinforcement-Learning-Ziel (RL), das es ihm ermöglicht, sich zu enthalten, wenn eine Generierung nicht hilfreich wäre, und ansonsten präzise, nützliche Anleitungen zu erzeugen. Über verschiedene agentische Benchmarks hinweg, die Webnavigation, terminalbasierte Werkzeugnutzung und textbasierte verkörperte Interaktion umfassen, übertrifft Mem-π konsistent abrufbasierte und frühere RL-optimierte Gedächtnisbaselines und erzielt eine relative Verbesserung von über 30% bei Webnavigationsaufgaben.

English

We present Mem-π, a framework for adaptive memory in large language model (LLM) agents, where useful guidance is generated on demand rather than retrieved from external memory stores. Existing memory-augmented agents typically rely on similarity-based retrieval from episodic memory banks or skill libraries, returning static entries that often misalign with the current context. In contrast, Mem-π uses a dedicated language or vision-language model with its own parameters, separate from the downstream agent, to generate context-specific guidance for complex tasks. Conditioned on the current agent context, the model jointly decides when to produce guidance and what guidance to produce. We train it with a decision-content decoupled reinforcement learning (RL) objective, enabling it to abstain when generation would not help and otherwise produce concise, useful guidance. Across diverse agentic benchmarks spanning web navigation, terminal-based tool use, and text-based embodied interaction, Mem-π consistently outperforms retrieval-based and prior RL-optimized memory baselines, achieving over 30% relative improvement on web navigation tasks.