Vedere, Ascoltare, Ricordare e Ragionare: Un Agente Multimodale con Memoria a Lungo Termine
Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
August 13, 2025
Autori: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
cs.AI
Abstract
Presentiamo M3-Agent, un innovativo framework per agenti multimodali dotato di memoria a lungo termine. Come gli esseri umani, M3-Agent è in grado di elaborare input visivi e uditivi in tempo reale per costruire e aggiornare la propria memoria a lungo termine. Oltre alla memoria episodica, sviluppa anche una memoria semantica, consentendogli di accumulare conoscenze sul mondo nel tempo. La sua memoria è organizzata in un formato multimodale centrato sulle entità, che permette una comprensione più profonda e coerente dell'ambiente. Dato un comando, M3-Agent esegue autonomamente un ragionamento iterativo su più turni e recupera informazioni rilevanti dalla memoria per portare a termine il compito. Per valutare l'efficacia della memoria e il ragionamento basato sulla memoria negli agenti multimodali, abbiamo sviluppato M3-Bench, un nuovo benchmark per la risposta a domande su video lunghi. M3-Bench comprende 100 video reali appositamente registrati catturati dalla prospettiva di un robot (M3-Bench-robot) e 929 video provenienti dal web in diversi scenari (M3-Bench-web). Abbiamo annotato coppie domanda-risposta progettate per testare capacità chiave essenziali per le applicazioni degli agenti, come la comprensione umana, l'estrazione di conoscenze generali e il ragionamento cross-modale. I risultati sperimentali mostrano che M3-Agent, addestrato tramite apprendimento per rinforzo, supera il baseline più forte, un agente che utilizza il prompting con Gemini-1.5-pro e GPT-4o, raggiungendo un'accuratezza superiore rispettivamente del 6,7%, 7,7% e 5,3% su M3-Bench-robot, M3-Bench-web e VideoMME-long. Il nostro lavoro avanza gli agenti multimodali verso una memoria a lungo termine più simile a quella umana e fornisce intuizioni per il loro design pratico. Modello, codice e dati sono disponibili su https://github.com/bytedance-seed/m3-agent.
English
We introduce M3-Agent, a novel multimodal agent framework equipped with
long-term memory. Like humans, M3-Agent can process real-time visual and
auditory inputs to build and update its long-term memory. Beyond episodic
memory, it also develops semantic memory, enabling it to accumulate world
knowledge over time. Its memory is organized in an entity-centric, multimodal
format, allowing deeper and more consistent understanding of the environment.
Given an instruction, M3-Agent autonomously performs multi-turn, iterative
reasoning and retrieves relevant information from memory to accomplish the
task. To evaluate memory effectiveness and memory-based reasoning in multimodal
agents, we develop M3-Bench, a new long-video question answering benchmark.
M3-Bench comprises 100 newly recorded real-world videos captured from a robot's
perspective (M3-Bench-robot) and 929 web-sourced videos across diverse
scenarios (M3-Bench-web). We annotate question-answer pairs designed to test
key capabilities essential for agent applications, such as human understanding,
general knowledge extraction, and cross-modal reasoning. Experimental results
show that M3-Agent, trained via reinforcement learning, outperforms the
strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o,
achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web
and VideoMME-long, respectively. Our work advances the multimodal agents toward
more human-like long-term memory and provides insights into their practical
design. Model, code and data are available at
https://github.com/bytedance-seed/m3-agent