Mem-π: Memória adaptativa através do aprendizado de quando e o que gerar

Resumo

Apresentamos o Mem-π, uma estrutura para memória adaptativa em agentes de modelos de linguagem de grande porte (LLMs), onde orientações úteis são geradas sob demanda, em vez de recuperadas de armazenamentos de memória externos. Agentes existentes com memória aumentada geralmente dependem de recuperação baseada em similaridade de bancos de memória episódica ou bibliotecas de habilidades, retornando entradas estáticas que frequentemente estão desalinhadas com o contexto atual. Em contraste, o Mem-π usa um modelo de linguagem ou visão-linguagem dedicado, com seus próprios parâmetros, separado do agente downstream, para gerar orientações específicas ao contexto para tarefas complexas. Condicionado ao contexto atual do agente, o modelo decide conjuntamente quando produzir orientação e qual orientação produzir. Nós o treinamos com um objetivo de aprendizado por reforço (RL) desacoplado entre decisão e conteúdo, permitindo que ele se abstenha quando a geração não for útil e, caso contrário, produza orientações concisas e úteis. Em diversos benchmarks agentivos que abrangem navegação na web, uso de ferramentas baseado em terminal e interação incorporada baseada em texto, o Mem-π supera consistentemente as linhas de base de memória baseadas em recuperação e otimizadas por RL anteriores, alcançando mais de 30% de melhoria relativa em tarefas de navegação na web.

English

We present Mem-π, a framework for adaptive memory in large language model (LLM) agents, where useful guidance is generated on demand rather than retrieved from external memory stores. Existing memory-augmented agents typically rely on similarity-based retrieval from episodic memory banks or skill libraries, returning static entries that often misalign with the current context. In contrast, Mem-π uses a dedicated language or vision-language model with its own parameters, separate from the downstream agent, to generate context-specific guidance for complex tasks. Conditioned on the current agent context, the model jointly decides when to produce guidance and what guidance to produce. We train it with a decision-content decoupled reinforcement learning (RL) objective, enabling it to abstain when generation would not help and otherwise produce concise, useful guidance. Across diverse agentic benchmarks spanning web navigation, terminal-based tool use, and text-based embodied interaction, Mem-π consistently outperforms retrieval-based and prior RL-optimized memory baselines, achieving over 30% relative improvement on web navigation tasks.