Запоминание, ориентированное на задачи, для мультимодальных агентов

Аннотация

Долговременная память необходима мультимодальным агентам для построения связного опыта, накопления знаний о мире и обеспечения непрерывного обучения. Однако создание эффективной памяти выходит за рамки проектирования модуля памяти и базовых требований, таких как точность и достоверность; ключевая задача заключается в определении того, что именно следует запоминать. Мультимодальные агенты, например воплощенные агенты, непрерывно воспринимают, рассуждают и действуют в реальной или виртуальной среде, получая неограниченный поток мультимодальных наблюдений. Из этого комбинаторного взрыва информации агент должен избирательно сохранять содержимое, релевантное его роли в среде и ценное для будущих задач. Для преодоления этого разрыва мы формулируем генерацию памяти как обучаемую политику запоминания и представляем TaskMem (Task-focused Memorization Policy Learning) — фреймворк на основе обучения с подкреплением, который позволяет политике динамически адаптировать фокус к требованиям реальных задач, встречающихся в среде. TaskMem использует двухэтапную парадигму обучения: на первом этапе агент учится тому, как запоминать, оптимизируя качество памяти при соблюдении фундаментальных требований достоверности; второй этап наступает после развертывания, когда агент учится тому, что запоминать, настраивая адаптер на своей базовой мультимодальной большой языковой модели (MLLM), используя недавние задачи среды для определения модели вознаграждения, направляющей политику запоминания на извлечение релевантного задаче содержимого. Для оценки нашего подхода мы переформулируем наборы данных VideoMME, EgoLife и EgoTempo в потоковые бенчмарки, моделирующие реалистичные условия, в которых агент обрабатывает потоковые наблюдения и выполняет задачи, поступающие онлайн. Для изолированной оценки памяти вопросы должны отвечаться только с использованием памяти агента, без доступа к исходному видео. Построенный на основе Qwen3-VL-30B-A3B, TaskMem повышает точность VQA на 6,3%, 7,0% и 5,3% на этих бенчмарках соответственно.

English

Long-term memory is essential for multimodal agents to build coherent experience, accumulate world knowledge, and achieve continual learning. However, constructing effective memory goes beyond memory module design and basic requirements such as accuracy and fidelity; the key challenge lies in determining what to memorize. Multimodal agents, such as embodied agents, continuously perceive, reason, and act in real or virtual environments, receiving an unbounded stream of multimodal observations. From this combinatorial explosion of information, an agent must selectively retain content that is relevant to its role in the environment and valuable for future tasks. To bridge this gap, we frame memory generation as a learnable memorization policy and introduce TaskMem (Task-focused Memorization Policy Learning), a reinforcement-learning-based framework that enables the policy to dynamically adjust its focus to the demands of real tasks encountered in the environment. TaskMem adopts a two-phase training paradigm: Phase One learns how to memorize by optimizing memory quality under fundamental fidelity requirements; Phase Two occurs after deployment, where the agent learns what to memorize by tuning an adapter on its base MLLM, using recent environment tasks to define a reward model that guides the memorization policy toward task-relevant content. To evaluate our approach, we reformulate VideoMME, EgoLife, and EgoTempo into streaming benchmarks that simulate a realistic setting in which an agent processes streaming observations and handles tasks arriving online. To isolate memory assessment, the questions must be answered using only the agent's memory, without access to raw video. Built on Qwen3-VL-30B-A3B, TaskMem improves VQA accuracy by 6.3%, 7.0%, and 5.3% on these benchmarks, respectively.