Mémorisation axée sur la tâche pour agents multimodaux

Résumé

La mémoire à long terme est essentielle pour que les agents multimodaux construisent une expérience cohérente, accumulent des connaissances sur le monde et réalisent un apprentissage continu. Cependant, la construction d'une mémoire efficace va au-delà de la conception du module de mémoire et des exigences de base telles que la précision et la fidélité ; le défi clé réside dans la détermination de ce qu'il faut mémoriser. Les agents multimodaux, tels que les agents incarnés, perçoivent, raisonnent et agissent en continu dans des environnements réels ou virtuels, recevant un flux illimité d'observations multimodales. Face à cette explosion combinatoire d'informations, un agent doit sélectivement retenir le contenu pertinent pour son rôle dans l'environnement et utile pour les tâches futures. Pour combler cette lacune, nous formulons la génération de mémoire comme une politique de mémorisation apprenable et introduisons TaskMem (Task-focused Memorization Policy Learning), un cadre basé sur l'apprentissage par renforcement qui permet à la politique d'ajuster dynamiquement son attention aux exigences des tâches réelles rencontrées dans l'environnement. TaskMem adopte un paradigme d'entraînement en deux phases : la Phase Un apprend comment mémoriser en optimisant la qualité de la mémoire sous des exigences fondamentales de fidélité ; la Phase Deux a lieu après le déploiement, où l'agent apprend quoi mémoriser en ajustant un adaptateur sur son MLLM de base, en utilisant les tâches récentes de l'environnement pour définir un modèle de récompense qui guide la politique de mémorisation vers un contenu pertinent pour la tâche. Pour évaluer notre approche, nous reformulons VideoMME, EgoLife et EgoTempo en benchmarks de streaming qui simulent un cadre réaliste dans lequel un agent traite des observations en continu et gère des tâches arrivant en ligne. Pour isoler l'évaluation de la mémoire, les questions doivent être répondues en utilisant uniquement la mémoire de l'agent, sans accès à la vidéo brute. Construit sur Qwen3-VL-30B-A3B, TaskMem améliore la précision de VQA de 6,3 %, 7,0 % et 5,3 % respectivement sur ces benchmarks.

English

Long-term memory is essential for multimodal agents to build coherent experience, accumulate world knowledge, and achieve continual learning. However, constructing effective memory goes beyond memory module design and basic requirements such as accuracy and fidelity; the key challenge lies in determining what to memorize. Multimodal agents, such as embodied agents, continuously perceive, reason, and act in real or virtual environments, receiving an unbounded stream of multimodal observations. From this combinatorial explosion of information, an agent must selectively retain content that is relevant to its role in the environment and valuable for future tasks. To bridge this gap, we frame memory generation as a learnable memorization policy and introduce TaskMem (Task-focused Memorization Policy Learning), a reinforcement-learning-based framework that enables the policy to dynamically adjust its focus to the demands of real tasks encountered in the environment. TaskMem adopts a two-phase training paradigm: Phase One learns how to memorize by optimizing memory quality under fundamental fidelity requirements; Phase Two occurs after deployment, where the agent learns what to memorize by tuning an adapter on its base MLLM, using recent environment tasks to define a reward model that guides the memorization policy toward task-relevant content. To evaluate our approach, we reformulate VideoMME, EgoLife, and EgoTempo into streaming benchmarks that simulate a realistic setting in which an agent processes streaming observations and handles tasks arriving online. To isolate memory assessment, the questions must be answered using only the agent's memory, without access to raw video. Built on Qwen3-VL-30B-A3B, TaskMem improves VQA accuracy by 6.3%, 7.0%, and 5.3% on these benchmarks, respectively.