ChatPaper.aiChatPaper

Ver, Escuchar, Recordar y Razonar: Un Agente Multimodal con Memoria a Largo Plazo

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

August 13, 2025
Autores: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
cs.AI

Resumen

Presentamos M3-Agent, un novedoso marco de agente multimodal equipado con memoria a largo plazo. Al igual que los humanos, M3-Agent puede procesar entradas visuales y auditivas en tiempo real para construir y actualizar su memoria a largo plazo. Más allá de la memoria episódica, también desarrolla memoria semántica, lo que le permite acumular conocimiento del mundo con el tiempo. Su memoria está organizada en un formato multimodal centrado en entidades, permitiendo una comprensión más profunda y consistente del entorno. Dada una instrucción, M3-Agent realiza de manera autónoma un razonamiento iterativo de múltiples turnos y recupera información relevante de la memoria para completar la tarea. Para evaluar la efectividad de la memoria y el razonamiento basado en memoria en agentes multimodales, desarrollamos M3-Bench, un nuevo punto de referencia de respuesta a preguntas sobre videos largos. M3-Bench comprende 100 videos recién grabados del mundo real capturados desde la perspectiva de un robot (M3-Bench-robot) y 929 videos obtenidos de la web en diversos escenarios (M3-Bench-web). Anotamos pares de preguntas y respuestas diseñados para probar capacidades clave esenciales para aplicaciones de agentes, como la comprensión humana, la extracción de conocimiento general y el razonamiento multimodal. Los resultados experimentales muestran que M3-Agent, entrenado mediante aprendizaje por refuerzo, supera al modelo base más fuerte, un agente de indicaciones que utiliza Gemini-1.5-pro y GPT-4o, logrando una precisión 6.7%, 7.7% y 5.3% mayor en M3-Bench-robot, M3-Bench-web y VideoMME-long, respectivamente. Nuestro trabajo avanza los agentes multimodales hacia una memoria a largo plazo más similar a la humana y proporciona insights sobre su diseño práctico. El modelo, el código y los datos están disponibles en https://github.com/bytedance-seed/m3-agent.
English
We introduce M3-Agent, a novel multimodal agent framework equipped with long-term memory. Like humans, M3-Agent can process real-time visual and auditory inputs to build and update its long-term memory. Beyond episodic memory, it also develops semantic memory, enabling it to accumulate world knowledge over time. Its memory is organized in an entity-centric, multimodal format, allowing deeper and more consistent understanding of the environment. Given an instruction, M3-Agent autonomously performs multi-turn, iterative reasoning and retrieves relevant information from memory to accomplish the task. To evaluate memory effectiveness and memory-based reasoning in multimodal agents, we develop M3-Bench, a new long-video question answering benchmark. M3-Bench comprises 100 newly recorded real-world videos captured from a robot's perspective (M3-Bench-robot) and 929 web-sourced videos across diverse scenarios (M3-Bench-web). We annotate question-answer pairs designed to test key capabilities essential for agent applications, such as human understanding, general knowledge extraction, and cross-modal reasoning. Experimental results show that M3-Agent, trained via reinforcement learning, outperforms the strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o, achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web and VideoMME-long, respectively. Our work advances the multimodal agents toward more human-like long-term memory and provides insights into their practical design. Model, code and data are available at https://github.com/bytedance-seed/m3-agent
PDF221August 14, 2025