Mem-π : mémoire adaptative en apprenant quand et quoi générer

Résumé

Nous présentons Mem-π, un cadre de mémoire adaptative pour les agents à base de grands modèles de langage (LLM), dans lequel des directives utiles sont générées à la demande plutôt que récupérées depuis des mémoires externes. Les agents à mémoire augmentée existants s’appuient généralement sur une recherche par similarité dans des banques de mémoire épisodique ou des bibliothèques de compétences, renvoyant des entrées statiques souvent inadaptées au contexte courant. En revanche, Mem-π utilise un modèle de langage ou de langage-vision dédié, avec ses propres paramètres, distinct de l’agent aval, pour générer des directives spécifiques au contexte pour des tâches complexes. Conditionné par le contexte actuel de l’agent, le modèle décide conjointement quand produire des directives et quelles directives produire. Nous l’entraînons avec un objectif d’apprentissage par renforcement (RL) découplé entre décision et contenu, ce qui lui permet de s’abstenir si la génération n’est pas utile, et sinon de produire des directives concises et pertinentes. Sur divers benchmarks agentiques couvrant la navigation web, l’utilisation d’outils en terminal et l’interaction incarnée basée sur du texte, Mem-π surpasse systématiquement les méthodes de référence basées sur la recherche ou optimisées par RL antérieures, avec une amélioration relative de plus de 30 % sur les tâches de navigation web.

English

We present Mem-π, a framework for adaptive memory in large language model (LLM) agents, where useful guidance is generated on demand rather than retrieved from external memory stores. Existing memory-augmented agents typically rely on similarity-based retrieval from episodic memory banks or skill libraries, returning static entries that often misalign with the current context. In contrast, Mem-π uses a dedicated language or vision-language model with its own parameters, separate from the downstream agent, to generate context-specific guidance for complex tasks. Conditioned on the current agent context, the model jointly decides when to produce guidance and what guidance to produce. We train it with a decision-content decoupled reinforcement learning (RL) objective, enabling it to abstain when generation would not help and otherwise produce concise, useful guidance. Across diverse agentic benchmarks spanning web navigation, terminal-based tool use, and text-based embodied interaction, Mem-π consistently outperforms retrieval-based and prior RL-optimized memory baselines, achieving over 30% relative improvement on web navigation tasks.