Zien, Luisteren, Onthouden en Redeneren: Een Multimodale Agent met Langetermijngeheugen

Samenvatting

We introduceren M3-Agent, een innovatief multimodaal agentframework uitgerust met langetermijngeheugen. Net als mensen kan M3-Agent real-time visuele en auditieve input verwerken om zijn langetermijngeheugen op te bouwen en bij te werken. Naast episodisch geheugen ontwikkelt het ook semantisch geheugen, waardoor het wereldkennis kan accumuleren over tijd. Het geheugen is georganiseerd in een entiteitsgerichte, multimodale indeling, wat een dieper en consistenter begrip van de omgeving mogelijk maakt. Bij een gegeven instructie voert M3-Agent autonoom meerronde, iteratieve redeneringen uit en haalt relevante informatie uit het geheugen om de taak te voltooien. Om de effectiviteit van het geheugen en geheugengebaseerd redeneren in multimodale agents te evalueren, ontwikkelen we M3-Bench, een nieuwe benchmark voor vraagbeantwoording op lange video’s. M3-Bench bestaat uit 100 nieuw opgenomen real-world video’s vastgelegd vanuit het perspectief van een robot (M3-Bench-robot) en 929 web-gebaseerde video’s uit diverse scenario’s (M3-Bench-web). We annoteren vraag-antwoordparen die zijn ontworpen om sleutelvaardigheden te testen die essentieel zijn voor agenttoepassingen, zoals menselijk begrip, algemene kennisextractie en cross-modale redenering. Experimentele resultaten tonen aan dat M3-Agent, getraind via reinforcement learning, de sterkste baseline overtreft, een prompting agent die Gemini-1.5-pro en GPT-4o gebruikt, met respectievelijk 6,7%, 7,7% en 5,3% hogere nauwkeurigheid op M3-Bench-robot, M3-Bench-web en VideoMME-long. Ons werk brengt multimodale agents dichter bij een meer menselijk langetermijngeheugen en biedt inzichten in hun praktische ontwerp. Model, code en data zijn beschikbaar op https://github.com/bytedance-seed/m3-agent.

English

We introduce M3-Agent, a novel multimodal agent framework equipped with long-term memory. Like humans, M3-Agent can process real-time visual and auditory inputs to build and update its long-term memory. Beyond episodic memory, it also develops semantic memory, enabling it to accumulate world knowledge over time. Its memory is organized in an entity-centric, multimodal format, allowing deeper and more consistent understanding of the environment. Given an instruction, M3-Agent autonomously performs multi-turn, iterative reasoning and retrieves relevant information from memory to accomplish the task. To evaluate memory effectiveness and memory-based reasoning in multimodal agents, we develop M3-Bench, a new long-video question answering benchmark. M3-Bench comprises 100 newly recorded real-world videos captured from a robot's perspective (M3-Bench-robot) and 929 web-sourced videos across diverse scenarios (M3-Bench-web). We annotate question-answer pairs designed to test key capabilities essential for agent applications, such as human understanding, general knowledge extraction, and cross-modal reasoning. Experimental results show that M3-Agent, trained via reinforcement learning, outperforms the strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o, achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web and VideoMME-long, respectively. Our work advances the multimodal agents toward more human-like long-term memory and provides insights into their practical design. Model, code and data are available at https://github.com/bytedance-seed/m3-agent

Zien, Luisteren, Onthouden en Redeneren: Een Multimodale Agent met Langetermijngeheugen

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

Samenvatting

Support