Zien, Luisteren, Onthouden en Redeneren: Een Multimodale Agent met Langetermijngeheugen
Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
August 13, 2025
Auteurs: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
cs.AI
Samenvatting
We introduceren M3-Agent, een innovatief multimodaal agentframework uitgerust met langetermijngeheugen. Net als mensen kan M3-Agent real-time visuele en auditieve input verwerken om zijn langetermijngeheugen op te bouwen en bij te werken. Naast episodisch geheugen ontwikkelt het ook semantisch geheugen, waardoor het wereldkennis kan accumuleren over tijd. Het geheugen is georganiseerd in een entiteitsgerichte, multimodale indeling, wat een dieper en consistenter begrip van de omgeving mogelijk maakt. Bij een gegeven instructie voert M3-Agent autonoom meerronde, iteratieve redeneringen uit en haalt relevante informatie uit het geheugen om de taak te voltooien. Om de effectiviteit van het geheugen en geheugengebaseerd redeneren in multimodale agents te evalueren, ontwikkelen we M3-Bench, een nieuwe benchmark voor vraagbeantwoording op lange video’s. M3-Bench bestaat uit 100 nieuw opgenomen real-world video’s vastgelegd vanuit het perspectief van een robot (M3-Bench-robot) en 929 web-gebaseerde video’s uit diverse scenario’s (M3-Bench-web). We annoteren vraag-antwoordparen die zijn ontworpen om sleutelvaardigheden te testen die essentieel zijn voor agenttoepassingen, zoals menselijk begrip, algemene kennisextractie en cross-modale redenering. Experimentele resultaten tonen aan dat M3-Agent, getraind via reinforcement learning, de sterkste baseline overtreft, een prompting agent die Gemini-1.5-pro en GPT-4o gebruikt, met respectievelijk 6,7%, 7,7% en 5,3% hogere nauwkeurigheid op M3-Bench-robot, M3-Bench-web en VideoMME-long. Ons werk brengt multimodale agents dichter bij een meer menselijk langetermijngeheugen en biedt inzichten in hun praktische ontwerp. Model, code en data zijn beschikbaar op https://github.com/bytedance-seed/m3-agent.
English
We introduce M3-Agent, a novel multimodal agent framework equipped with
long-term memory. Like humans, M3-Agent can process real-time visual and
auditory inputs to build and update its long-term memory. Beyond episodic
memory, it also develops semantic memory, enabling it to accumulate world
knowledge over time. Its memory is organized in an entity-centric, multimodal
format, allowing deeper and more consistent understanding of the environment.
Given an instruction, M3-Agent autonomously performs multi-turn, iterative
reasoning and retrieves relevant information from memory to accomplish the
task. To evaluate memory effectiveness and memory-based reasoning in multimodal
agents, we develop M3-Bench, a new long-video question answering benchmark.
M3-Bench comprises 100 newly recorded real-world videos captured from a robot's
perspective (M3-Bench-robot) and 929 web-sourced videos across diverse
scenarios (M3-Bench-web). We annotate question-answer pairs designed to test
key capabilities essential for agent applications, such as human understanding,
general knowledge extraction, and cross-modal reasoning. Experimental results
show that M3-Agent, trained via reinforcement learning, outperforms the
strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o,
achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web
and VideoMME-long, respectively. Our work advances the multimodal agents toward
more human-like long-term memory and provides insights into their practical
design. Model, code and data are available at
https://github.com/bytedance-seed/m3-agent