Taakgerichte Memorisatie voor Multimodale Agenten

Samenvatting

Langetermijngeheugen is essentieel voor multimodale agenten om coherente ervaring op te bouwen, wereldkennis te accumuleren en continu leren te bereiken. Het construeren van effectief geheugen gaat echter verder dan het ontwerp van geheugenmodules en basiseisen zoals nauwkeurigheid en getrouwheid; de belangrijkste uitdaging ligt in het bepalen van wat er gememoriseerd moet worden. Multimodale agenten, zoals belichaamde agenten, nemen continu waar, redeneren en handelen in echte of virtuele omgevingen, waarbij ze een onbegrensde stroom van multimodale observaties ontvangen. Uit deze combinatorische explosie van informatie moet een agent selectief inhoud vasthouden die relevant is voor zijn rol in de omgeving en waardevol voor toekomstige taken. Om deze kloof te overbruggen, framen we geheugengeneratie als een leerbaar memorisatiebeleid en introduceren we TaskMem (Task-focused Memorization Policy Learning), een op versterkend leren gebaseerd raamwerk waarmee het beleid zijn focus dynamisch kan aanpassen aan de eisen van echte taken die in de omgeving voorkomen. TaskMem hanteert een tweefasige trainingsparadigma: Fase Een leert hoe te memoriseren door geheugenkwaliteit te optimaliseren onder fundamentele getrouwheidseisen; Fase Twee vindt plaats na implementatie, waarbij de agent leert wat te memoriseren door een adapter af te stemmen op zijn basismodel van de MLLM, waarbij recente omgevingstaken worden gebruikt om een beloningsmodel te definiëren dat het memorisatiebeleid naar taakrelevante inhoud stuurt. Om onze aanpak te evalueren, herformuleren we VideoMME, EgoLife en EgoTempo tot streambenchmarks die een realistische setting simuleren waarin een agent streamobservaties verwerkt en taken die online arriveren afhandelt. Om geheugenbeoordeling te isoleren, moeten de vragen worden beantwoord met alleen het geheugen van de agent, zonder toegang tot rauwe video. Gebouwd op Qwen3-VL-30B-A3B, verbetert TaskMem de VQA-nauwkeurigheid met respectievelijk 6,3%, 7,0% en 5,3% op deze benchmarks.

English

Long-term memory is essential for multimodal agents to build coherent experience, accumulate world knowledge, and achieve continual learning. However, constructing effective memory goes beyond memory module design and basic requirements such as accuracy and fidelity; the key challenge lies in determining what to memorize. Multimodal agents, such as embodied agents, continuously perceive, reason, and act in real or virtual environments, receiving an unbounded stream of multimodal observations. From this combinatorial explosion of information, an agent must selectively retain content that is relevant to its role in the environment and valuable for future tasks. To bridge this gap, we frame memory generation as a learnable memorization policy and introduce TaskMem (Task-focused Memorization Policy Learning), a reinforcement-learning-based framework that enables the policy to dynamically adjust its focus to the demands of real tasks encountered in the environment. TaskMem adopts a two-phase training paradigm: Phase One learns how to memorize by optimizing memory quality under fundamental fidelity requirements; Phase Two occurs after deployment, where the agent learns what to memorize by tuning an adapter on its base MLLM, using recent environment tasks to define a reward model that guides the memorization policy toward task-relevant content. To evaluate our approach, we reformulate VideoMME, EgoLife, and EgoTempo into streaming benchmarks that simulate a realistic setting in which an agent processes streaming observations and handles tasks arriving online. To isolate memory assessment, the questions must be answered using only the agent's memory, without access to raw video. Built on Qwen3-VL-30B-A3B, TaskMem improves VQA accuracy by 6.3%, 7.0%, and 5.3% on these benchmarks, respectively.