Mem-π: Memoria Adaptativa mediante el aprendizaje de cuándo y qué generar

Resumen

Presentamos Mem-π, un marco para la memoria adaptativa en agentes basados en modelos de lenguaje grande (LLM), donde se genera orientación útil bajo demanda en lugar de recuperarla de almacenes de memoria externos. Los agentes con memoria aumentada existentes suelen depender de la recuperación por similitud a partir de bancos de memoria episódica o bibliotecas de habilidades, devolviendo entradas estáticas que a menudo no se alinean con el contexto actual. En contraste, Mem-π utiliza un modelo de lenguaje o de lenguaje-visión dedicado, con parámetros propios y separado del agente descendente, para generar orientación específica al contexto en tareas complejas. Condicionado al contexto actual del agente, el modelo decide de manera conjunta cuándo producir orientación y qué orientación producir. Lo entrenamos con un objetivo de aprendizaje por refuerzo (RL) desacoplado de decisión y contenido, lo que le permite abstenerse cuando la generación no resulta útil y, en caso contrario, producir orientación concisa y útil. En diversos benchmarks de agentes que abarcan navegación web, uso de herramientas basado en terminal e interacción encarnada basada en texto, Mem-π supera consistentemente a las líneas base de memoria basadas en recuperación y optimizadas con RL previas, logrando una mejora relativa de más del 30% en tareas de navegación web.

English

We present Mem-π, a framework for adaptive memory in large language model (LLM) agents, where useful guidance is generated on demand rather than retrieved from external memory stores. Existing memory-augmented agents typically rely on similarity-based retrieval from episodic memory banks or skill libraries, returning static entries that often misalign with the current context. In contrast, Mem-π uses a dedicated language or vision-language model with its own parameters, separate from the downstream agent, to generate context-specific guidance for complex tasks. Conditioned on the current agent context, the model jointly decides when to produce guidance and what guidance to produce. We train it with a decision-content decoupled reinforcement learning (RL) objective, enabling it to abstain when generation would not help and otherwise produce concise, useful guidance. Across diverse agentic benchmarks spanning web navigation, terminal-based tool use, and text-based embodied interaction, Mem-π consistently outperforms retrieval-based and prior RL-optimized memory baselines, achieving over 30% relative improvement on web navigation tasks.