Memorización Centrada en la Tarea para Agentes Multimodales

Resumen

La memoria a largo plazo es esencial para que los agentes multimodales construyan experiencias coherentes, acumulen conocimiento del mundo y logren un aprendizaje continuo. Sin embargo, construir una memoria efectiva va más allá del diseño de módulos de memoria y requisitos básicos como precisión y fidelidad; el desafío clave radica en determinar qué memorizar. Los agentes multimodales, como los agentes encarnados, perciben, razonan y actúan continuamente en entornos reales o virtuales, recibiendo un flujo ilimitado de observaciones multimodales. Ante esta explosión combinatoria de información, un agente debe retener selectivamente contenido relevante para su rol en el entorno y valioso para tareas futuras. Para abordar esta brecha, enmarcamos la generación de memoria como una política de memorización aprendible e introducimos TaskMem (Aprendizaje de Políticas de Memorización Centradas en Tareas), un marco basado en aprendizaje por refuerzo que permite a la política ajustar dinámicamente su enfoque a las demandas de las tareas reales encontradas en el entorno. TaskMem adopta un paradigma de entrenamiento en dos fases: la Fase Uno aprende cómo memorizar optimizando la calidad de la memoria bajo requisitos fundamentales de fidelidad; la Fase Dos ocurre después del despliegue, donde el agente aprende qué memorizar ajustando un adaptador sobre su MLLM base, utilizando tareas recientes del entorno para definir un modelo de recompensa que guíe la política de memorización hacia contenido relevante para la tarea. Para evaluar nuestro enfoque, reformulamos VideoMME, EgoLife y EgoTempo en puntos de referencia de transmisión que simulan un escenario realista donde un agente procesa observaciones en flujo y maneja tareas que llegan en línea. Para aislar la evaluación de la memoria, las preguntas deben responderse utilizando solo la memoria del agente, sin acceso al video sin procesar. Basado en Qwen3-VL-30B-A3B, TaskMem mejora la precisión de VQA en un 6.3%, 7.0% y 5.3% en estos puntos de referencia, respectivamente.

English

Long-term memory is essential for multimodal agents to build coherent experience, accumulate world knowledge, and achieve continual learning. However, constructing effective memory goes beyond memory module design and basic requirements such as accuracy and fidelity; the key challenge lies in determining what to memorize. Multimodal agents, such as embodied agents, continuously perceive, reason, and act in real or virtual environments, receiving an unbounded stream of multimodal observations. From this combinatorial explosion of information, an agent must selectively retain content that is relevant to its role in the environment and valuable for future tasks. To bridge this gap, we frame memory generation as a learnable memorization policy and introduce TaskMem (Task-focused Memorization Policy Learning), a reinforcement-learning-based framework that enables the policy to dynamically adjust its focus to the demands of real tasks encountered in the environment. TaskMem adopts a two-phase training paradigm: Phase One learns how to memorize by optimizing memory quality under fundamental fidelity requirements; Phase Two occurs after deployment, where the agent learns what to memorize by tuning an adapter on its base MLLM, using recent environment tasks to define a reward model that guides the memorization policy toward task-relevant content. To evaluate our approach, we reformulate VideoMME, EgoLife, and EgoTempo into streaming benchmarks that simulate a realistic setting in which an agent processes streaming observations and handles tasks arriving online. To isolate memory assessment, the questions must be answered using only the agent's memory, without access to raw video. Built on Qwen3-VL-30B-A3B, TaskMem improves VQA accuracy by 6.3%, 7.0%, and 5.3% on these benchmarks, respectively.