Aufgabenfokussierte Memorisierung für multimodale Agenten

Zusammenfassung

Langzeitgedächtnis ist für multimodale Agenten unerlässlich, um kohärente Erfahrungen aufzubauen, Weltwissen anzuhäufen und kontinuierliches Lernen zu ermöglichen. Die Konstruktion eines effektiven Gedächtnisses geht jedoch über das Design von Gedächtnismodulen und grundlegende Anforderungen wie Genauigkeit und Treue hinaus; die zentrale Herausforderung besteht darin, zu bestimmen, was gespeichert werden soll. Multimodale Agenten, wie etwa verkörperte Agenten (embodied agents), nehmen kontinuierlich in realen oder virtuellen Umgebungen wahr, schlussfolgern und handeln und empfangen dabei einen unbegrenzten Strom multimodaler Beobachtungen. Aus dieser kombinatorischen Explosion von Informationen muss ein Agent selektiv jene Inhalte speichern, die für seine Rolle in der Umgebung relevant und für zukünftige Aufgaben wertvoll sind. Um diese Lücke zu schließen, betrachten wir die Gedächtnisgenerierung als eine lernbare Merk-Politik (memorization policy) und führen TaskMem (Task-focused Memorization Policy Learning) ein – ein auf verstärkendem Lernen (reinforcement learning) basierendes Framework, das es der Politik ermöglicht, ihren Fokus dynamisch an die Anforderungen realer Aufgaben in der Umgebung anzupassen. TaskMem folgt einem zweiphasigen Trainingsparadigma: In Phase Eins wird durch Optimierung der Gedächtnisqualität unter grundlegenden Treueanforderungen gelernt, *wie* man sich erinnert. Phase Zwei findet nach der Bereitstellung statt: Der Agent lernt, *was* er sich merken soll, indem er einen Adapter auf seinem Basis-MLLM (Multimodal Large Language Model) abstimmt, wobei aktuelle Umgebungsaufgaben zur Definition eines Belohnungsmodells dienen, das die Merk-Politik auf aufgabenrelevante Inhalte lenkt. Zur Evaluierung unseres Ansatzes formulieren wir VideoMME, EgoLife und EgoTempo als Streaming-Benchmarks um, die ein realistisches Szenario simulieren, in dem ein Agent Streaming-Beobachtungen verarbeitet und online eingehende Aufgaben bewältigt. Um die Gedächtnisleistung isoliert zu bewerten, müssen die Fragen ausschließlich aus dem Gedächtnis des Agenten beantwortet werden, ohne Zugriff auf das Rohvideo. Basierend auf Qwen3-VL-30B-A3B verbessert TaskMem die VQA-Genauigkeit auf diesen Benchmarks um 6,3 %, 7,0 % bzw. 5,3 %.

English

Long-term memory is essential for multimodal agents to build coherent experience, accumulate world knowledge, and achieve continual learning. However, constructing effective memory goes beyond memory module design and basic requirements such as accuracy and fidelity; the key challenge lies in determining what to memorize. Multimodal agents, such as embodied agents, continuously perceive, reason, and act in real or virtual environments, receiving an unbounded stream of multimodal observations. From this combinatorial explosion of information, an agent must selectively retain content that is relevant to its role in the environment and valuable for future tasks. To bridge this gap, we frame memory generation as a learnable memorization policy and introduce TaskMem (Task-focused Memorization Policy Learning), a reinforcement-learning-based framework that enables the policy to dynamically adjust its focus to the demands of real tasks encountered in the environment. TaskMem adopts a two-phase training paradigm: Phase One learns how to memorize by optimizing memory quality under fundamental fidelity requirements; Phase Two occurs after deployment, where the agent learns what to memorize by tuning an adapter on its base MLLM, using recent environment tasks to define a reward model that guides the memorization policy toward task-relevant content. To evaluate our approach, we reformulate VideoMME, EgoLife, and EgoTempo into streaming benchmarks that simulate a realistic setting in which an agent processes streaming observations and handles tasks arriving online. To isolate memory assessment, the questions must be answered using only the agent's memory, without access to raw video. Built on Qwen3-VL-30B-A3B, TaskMem improves VQA accuracy by 6.3%, 7.0%, and 5.3% on these benchmarks, respectively.