Sehen, Hören, Erinnern und Schlussfolgern: Ein multimodaler Agent mit Langzeitgedächtnis
Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
August 13, 2025
papers.authors: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
cs.AI
papers.abstract
Wir stellen M3-Agent vor, ein neuartiges multimodales Agenten-Framework, das mit Langzeitgedächtnis ausgestattet ist. Wie der Mensch kann M3-Agent Echtzeit-Eingaben aus visuellen und auditiven Quellen verarbeiten, um sein Langzeitgedächtnis aufzubauen und zu aktualisieren. Über episodisches Gedächtnis hinaus entwickelt es auch semantisches Gedächtnis, wodurch es Weltwissen im Laufe der Zeit ansammeln kann. Sein Gedächtnis ist in einem entitätszentrierten, multimodalen Format organisiert, was ein tieferes und konsistenteres Verständnis der Umgebung ermöglicht. Bei einer Anweisung führt M3-Agent autonom mehrstufiges, iteratives Denken durch und ruft relevante Informationen aus dem Gedächtnis ab, um die Aufgabe zu erfüllen. Um die Gedächtniseffektivität und gedächtnisbasiertes Denken in multimodalen Agenten zu bewerten, entwickeln wir M3-Bench, einen neuen Benchmark für Fragen und Antworten zu langen Videos. M3-Bench umfasst 100 neu aufgenommene reale Videos aus der Perspektive eines Roboters (M3-Bench-robot) und 929 web-basierte Videos aus verschiedenen Szenarien (M3-Bench-web). Wir annotieren Frage-Antwort-Paare, die darauf abzielen, Schlüsselkompetenzen für Agentenanwendungen zu testen, wie z.B. menschliches Verständnis, Extraktion von Allgemeinwissen und cross-modales Denken. Experimentelle Ergebnisse zeigen, dass M3-Agent, das durch Reinforcement Learning trainiert wurde, den stärksten Baseline-Agenten, der Gemini-1.5-pro und GPT-4o verwendet, übertrifft und dabei eine um 6,7 %, 7,7 % bzw. 5,3 % höhere Genauigkeit auf M3-Bench-robot, M3-Bench-web und VideoMME-long erzielt. Unsere Arbeit bringt multimodale Agenten einem menschenähnlicheren Langzeitgedächtnis näher und liefert Einblicke in deren praktisches Design. Modell, Code und Daten sind verfügbar unter https://github.com/bytedance-seed/m3-agent.
English
We introduce M3-Agent, a novel multimodal agent framework equipped with
long-term memory. Like humans, M3-Agent can process real-time visual and
auditory inputs to build and update its long-term memory. Beyond episodic
memory, it also develops semantic memory, enabling it to accumulate world
knowledge over time. Its memory is organized in an entity-centric, multimodal
format, allowing deeper and more consistent understanding of the environment.
Given an instruction, M3-Agent autonomously performs multi-turn, iterative
reasoning and retrieves relevant information from memory to accomplish the
task. To evaluate memory effectiveness and memory-based reasoning in multimodal
agents, we develop M3-Bench, a new long-video question answering benchmark.
M3-Bench comprises 100 newly recorded real-world videos captured from a robot's
perspective (M3-Bench-robot) and 929 web-sourced videos across diverse
scenarios (M3-Bench-web). We annotate question-answer pairs designed to test
key capabilities essential for agent applications, such as human understanding,
general knowledge extraction, and cross-modal reasoning. Experimental results
show that M3-Agent, trained via reinforcement learning, outperforms the
strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o,
achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web
and VideoMME-long, respectively. Our work advances the multimodal agents toward
more human-like long-term memory and provides insights into their practical
design. Model, code and data are available at
https://github.com/bytedance-seed/m3-agent