Mem-π: Адаптивная память путем обучения тому, когда и что генерировать

Аннотация

Мы представляем Mem-π — фреймворк для адаптивной памяти в агентах на основе больших языковых моделей (LLM), где полезные инструкции генерируются по запросу, а не извлекаются из внешних хранилищ памяти. Существующие агенты с дополненной памятью обычно полагаются на поиск по сходству в банках эпизодической памяти или библиотеках навыков, возвращая статические записи, которые часто не соответствуют текущему контексту. В отличие от этого, Mem-π использует выделенную языковую или языко-визуальную модель с собственными параметрами, отдельную от нижележащего агента, для генерации контекстно-зависимых инструкций для сложных задач. Принимая во внимание текущий контекст агента, модель совместно решает, когда создавать инструкции и какие именно инструкции генерировать. Мы обучаем её с помощью раздельного по решению и содержанию обучения с подкреплением (RL), что позволяет ей воздерживаться от генерации, когда она не принесёт пользы, а в противном случае — выдавать краткие и полезные инструкции. На различных бенчмарках для агентов, охватывающих веб-навигацию, использование инструментов в терминале и текстовое воплощённое взаимодействие, Mem-π последовательно превосходит базовые методы, основанные на поиске и на предварительно оптимизированном с помощью RL запоминании, достигая более 30% относительного улучшения в задачах веб-навигации.

English

We present Mem-π, a framework for adaptive memory in large language model (LLM) agents, where useful guidance is generated on demand rather than retrieved from external memory stores. Existing memory-augmented agents typically rely on similarity-based retrieval from episodic memory banks or skill libraries, returning static entries that often misalign with the current context. In contrast, Mem-π uses a dedicated language or vision-language model with its own parameters, separate from the downstream agent, to generate context-specific guidance for complex tasks. Conditioned on the current agent context, the model jointly decides when to produce guidance and what guidance to produce. We train it with a decision-content decoupled reinforcement learning (RL) objective, enabling it to abstain when generation would not help and otherwise produce concise, useful guidance. Across diverse agentic benchmarks spanning web navigation, terminal-based tool use, and text-based embodied interaction, Mem-π consistently outperforms retrieval-based and prior RL-optimized memory baselines, achieving over 30% relative improvement on web navigation tasks.