ChatPaper.aiChatPaper

Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodaler Agent mit Langzeitgedächtnis

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

August 13, 2025
papers.authors: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
cs.AI

papers.abstract

Wir stellen M3-Agent vor, ein neuartiges multimodales Agenten-Framework, das mit Langzeitgedächtnis ausgestattet ist. Wie der Mensch kann M3-Agent Echtzeit-Eingaben aus visuellen und auditiven Quellen verarbeiten, um sein Langzeitgedächtnis aufzubauen und zu aktualisieren. Über episodisches Gedächtnis hinaus entwickelt es auch semantisches Gedächtnis, wodurch es Weltwissen im Laufe der Zeit ansammeln kann. Sein Gedächtnis ist in einem entitätszentrierten, multimodalen Format organisiert, was ein tieferes und konsistenteres Verständnis der Umgebung ermöglicht. Bei einer Anweisung führt M3-Agent autonom mehrstufiges, iteratives Denken durch und ruft relevante Informationen aus dem Gedächtnis ab, um die Aufgabe zu erfüllen. Um die Gedächtniseffektivität und gedächtnisbasiertes Denken in multimodalen Agenten zu bewerten, entwickeln wir M3-Bench, einen neuen Benchmark für Fragen und Antworten zu langen Videos. M3-Bench umfasst 100 neu aufgenommene reale Videos aus der Perspektive eines Roboters (M3-Bench-robot) und 929 web-basierte Videos aus verschiedenen Szenarien (M3-Bench-web). Wir annotieren Frage-Antwort-Paare, die darauf abzielen, Schlüsselkompetenzen für Agentenanwendungen zu testen, wie z.B. menschliches Verständnis, Extraktion von Allgemeinwissen und cross-modales Denken. Experimentelle Ergebnisse zeigen, dass M3-Agent, das durch Reinforcement Learning trainiert wurde, den stärksten Baseline-Agenten, der Gemini-1.5-pro und GPT-4o verwendet, übertrifft und dabei eine um 6,7 %, 7,7 % bzw. 5,3 % höhere Genauigkeit auf M3-Bench-robot, M3-Bench-web und VideoMME-long erzielt. Unsere Arbeit bringt multimodale Agenten einem menschenähnlicheren Langzeitgedächtnis näher und liefert Einblicke in deren praktisches Design. Modell, Code und Daten sind verfügbar unter https://github.com/bytedance-seed/m3-agent.
English
We introduce M3-Agent, a novel multimodal agent framework equipped with long-term memory. Like humans, M3-Agent can process real-time visual and auditory inputs to build and update its long-term memory. Beyond episodic memory, it also develops semantic memory, enabling it to accumulate world knowledge over time. Its memory is organized in an entity-centric, multimodal format, allowing deeper and more consistent understanding of the environment. Given an instruction, M3-Agent autonomously performs multi-turn, iterative reasoning and retrieves relevant information from memory to accomplish the task. To evaluate memory effectiveness and memory-based reasoning in multimodal agents, we develop M3-Bench, a new long-video question answering benchmark. M3-Bench comprises 100 newly recorded real-world videos captured from a robot's perspective (M3-Bench-robot) and 929 web-sourced videos across diverse scenarios (M3-Bench-web). We annotate question-answer pairs designed to test key capabilities essential for agent applications, such as human understanding, general knowledge extraction, and cross-modal reasoning. Experimental results show that M3-Agent, trained via reinforcement learning, outperforms the strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o, achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web and VideoMME-long, respectively. Our work advances the multimodal agents toward more human-like long-term memory and provides insights into their practical design. Model, code and data are available at https://github.com/bytedance-seed/m3-agent
PDF221August 14, 2025