Ver, Ouvir, Lembrar e Raciocinar: Um Agente Multimodal com Memória de Longo Prazo
Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
August 13, 2025
Autores: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
cs.AI
Resumo
Apresentamos o M3-Agent, uma nova estrutura de agente multimodal equipada com memória de longo prazo. Assim como os humanos, o M3-Agent pode processar entradas visuais e auditivas em tempo real para construir e atualizar sua memória de longo prazo. Além da memória episódica, ele também desenvolve memória semântica, permitindo que acumule conhecimento sobre o mundo ao longo do tempo. Sua memória é organizada em um formato multimodal centrado em entidades, permitindo uma compreensão mais profunda e consistente do ambiente. Dada uma instrução, o M3-Agent realiza de forma autônoma raciocínios iterativos em múltiplas etapas e recupera informações relevantes da memória para concluir a tarefa. Para avaliar a eficácia da memória e o raciocínio baseado em memória em agentes multimodais, desenvolvemos o M3-Bench, um novo benchmark de respostas a perguntas em vídeos longos. O M3-Bench compreende 100 vídeos recém-gravados do mundo real capturados da perspectiva de um robô (M3-Bench-robot) e 929 vídeos obtidos da web em diversos cenários (M3-Bench-web). Anotamos pares de perguntas e respostas projetados para testar capacidades essenciais para aplicações de agentes, como compreensão humana, extração de conhecimento geral e raciocínio multimodal. Os resultados experimentais mostram que o M3-Agent, treinado por meio de aprendizado por reforço, supera o baseline mais forte, um agente de prompt usando Gemini-1.5-pro e GPT-4o, alcançando acurácia 6,7%, 7,7% e 5,3% maior no M3-Bench-robot, M3-Bench-web e VideoMME-long, respectivamente. Nosso trabalho avança os agentes multimodais em direção a uma memória de longo prazo mais semelhante à humana e fornece insights para seu design prático. Modelo, código e dados estão disponíveis em https://github.com/bytedance-seed/m3-agent.
English
We introduce M3-Agent, a novel multimodal agent framework equipped with
long-term memory. Like humans, M3-Agent can process real-time visual and
auditory inputs to build and update its long-term memory. Beyond episodic
memory, it also develops semantic memory, enabling it to accumulate world
knowledge over time. Its memory is organized in an entity-centric, multimodal
format, allowing deeper and more consistent understanding of the environment.
Given an instruction, M3-Agent autonomously performs multi-turn, iterative
reasoning and retrieves relevant information from memory to accomplish the
task. To evaluate memory effectiveness and memory-based reasoning in multimodal
agents, we develop M3-Bench, a new long-video question answering benchmark.
M3-Bench comprises 100 newly recorded real-world videos captured from a robot's
perspective (M3-Bench-robot) and 929 web-sourced videos across diverse
scenarios (M3-Bench-web). We annotate question-answer pairs designed to test
key capabilities essential for agent applications, such as human understanding,
general knowledge extraction, and cross-modal reasoning. Experimental results
show that M3-Agent, trained via reinforcement learning, outperforms the
strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o,
achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web
and VideoMME-long, respectively. Our work advances the multimodal agents toward
more human-like long-term memory and provides insights into their practical
design. Model, code and data are available at
https://github.com/bytedance-seed/m3-agent