Memorização focada em tarefas para agentes multimodais

Resumo

A memória de longo prazo é essencial para que agentes multimodais construam experiências coerentes, acumulem conhecimento de mundo e alcancem aprendizado contínuo. No entanto, construir uma memória eficaz vai além do projeto do módulo de memória e de requisitos básicos como precisão e fidelidade; o principal desafio está em determinar o que memorizar. Agentes multimodais, como agentes incorporados, percebem, raciocinam e agem continuamente em ambientes reais ou virtuais, recebendo um fluxo ilimitado de observações multimodais. Dessa explosão combinatória de informações, um agente deve reter seletivamente conteúdos relevantes para seu papel no ambiente e valiosos para tarefas futuras. Para preencher essa lacuna, enquadramos a geração de memória como uma política de memorização aprendível e introduzimos o TaskMem (Task-focused Memorization Policy Learning), uma estrutura baseada em aprendizado por reforço que permite à política ajustar dinamicamente seu foco às demandas de tarefas reais encontradas no ambiente. O TaskMem adota um paradigma de treinamento em duas fases: a Fase Um aprende como memorizar, otimizando a qualidade da memória sob requisitos fundamentais de fidelidade; a Fase Dois ocorre após a implantação, onde o agente aprende o que memorizar ajustando um adaptador em seu MLLM base, usando tarefas recentes do ambiente para definir um modelo de recompensa que orienta a política de memorização em direção a conteúdo relevante para as tarefas. Para avaliar nossa abordagem, reformulamos os conjuntos de dados VideoMME, EgoLife e EgoTempo em benchmarks de streaming que simulam um cenário realista no qual um agente processa observações em fluxo contínuo e lida com tarefas que chegam online. Para isolar a avaliação da memória, as perguntas devem ser respondidas usando apenas a memória do agente, sem acesso ao vídeo bruto. Construído sobre o Qwen3-VL-30B-A3B, o TaskMem melhora a precisão de VQA em 6,3%, 7,0% e 5,3% nesses benchmarks, respectivamente.

English

Long-term memory is essential for multimodal agents to build coherent experience, accumulate world knowledge, and achieve continual learning. However, constructing effective memory goes beyond memory module design and basic requirements such as accuracy and fidelity; the key challenge lies in determining what to memorize. Multimodal agents, such as embodied agents, continuously perceive, reason, and act in real or virtual environments, receiving an unbounded stream of multimodal observations. From this combinatorial explosion of information, an agent must selectively retain content that is relevant to its role in the environment and valuable for future tasks. To bridge this gap, we frame memory generation as a learnable memorization policy and introduce TaskMem (Task-focused Memorization Policy Learning), a reinforcement-learning-based framework that enables the policy to dynamically adjust its focus to the demands of real tasks encountered in the environment. TaskMem adopts a two-phase training paradigm: Phase One learns how to memorize by optimizing memory quality under fundamental fidelity requirements; Phase Two occurs after deployment, where the agent learns what to memorize by tuning an adapter on its base MLLM, using recent environment tasks to define a reward model that guides the memorization policy toward task-relevant content. To evaluate our approach, we reformulate VideoMME, EgoLife, and EgoTempo into streaming benchmarks that simulate a realistic setting in which an agent processes streaming observations and handles tasks arriving online. To isolate memory assessment, the questions must be answered using only the agent's memory, without access to raw video. Built on Qwen3-VL-30B-A3B, TaskMem improves VQA accuracy by 6.3%, 7.0%, and 5.3% on these benchmarks, respectively.