ChatPaper.aiChatPaper

Voir, Écouter, Mémoriser et Raisonner : Un Agent Multimodal doté d'une Mémoire à Long Terme

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

August 13, 2025
papers.authors: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
cs.AI

papers.abstract

Nous présentons M3-Agent, un nouveau cadre d'agent multimodal doté d'une mémoire à long terme. À l'instar des humains, M3-Agent est capable de traiter des entrées visuelles et auditives en temps réel pour construire et mettre à jour sa mémoire à long terme. Au-delà de la mémoire épisodique, il développe également une mémoire sémantique, lui permettant d'accumuler des connaissances sur le monde au fil du temps. Sa mémoire est organisée dans un format centré sur les entités et multimodal, permettant une compréhension plus profonde et plus cohérente de l'environnement. Face à une instruction, M3-Agent effectue de manière autonome un raisonnement itératif en plusieurs tours et récupère des informations pertinentes dans sa mémoire pour accomplir la tâche. Pour évaluer l'efficacité de la mémoire et le raisonnement basé sur la mémoire dans les agents multimodaux, nous avons développé M3-Bench, un nouveau benchmark de questions-réponses sur des vidéos longues. M3-Bench comprend 100 vidéos nouvellement enregistrées dans le monde réel, capturées depuis la perspective d'un robot (M3-Bench-robot), et 929 vidéos provenant du web couvrant divers scénarios (M3-Bench-web). Nous annotons des paires de questions-réponses conçues pour tester des capacités clés essentielles pour les applications d'agents, telles que la compréhension humaine, l'extraction de connaissances générales et le raisonnement intermodal. Les résultats expérimentaux montrent que M3-Agent, entraîné via l'apprentissage par renforcement, surpasse le meilleur modèle de référence, un agent utilisant des prompts avec Gemini-1.5-pro et GPT-4o, atteignant une précision supérieure de 6,7 %, 7,7 % et 5,3 % sur M3-Bench-robot, M3-Bench-web et VideoMME-long, respectivement. Notre travail fait progresser les agents multimodaux vers une mémoire à long terme plus proche de celle des humains et fournit des insights pour leur conception pratique. Le modèle, le code et les données sont disponibles à l'adresse suivante : https://github.com/bytedance-seed/m3-agent.
English
We introduce M3-Agent, a novel multimodal agent framework equipped with long-term memory. Like humans, M3-Agent can process real-time visual and auditory inputs to build and update its long-term memory. Beyond episodic memory, it also develops semantic memory, enabling it to accumulate world knowledge over time. Its memory is organized in an entity-centric, multimodal format, allowing deeper and more consistent understanding of the environment. Given an instruction, M3-Agent autonomously performs multi-turn, iterative reasoning and retrieves relevant information from memory to accomplish the task. To evaluate memory effectiveness and memory-based reasoning in multimodal agents, we develop M3-Bench, a new long-video question answering benchmark. M3-Bench comprises 100 newly recorded real-world videos captured from a robot's perspective (M3-Bench-robot) and 929 web-sourced videos across diverse scenarios (M3-Bench-web). We annotate question-answer pairs designed to test key capabilities essential for agent applications, such as human understanding, general knowledge extraction, and cross-modal reasoning. Experimental results show that M3-Agent, trained via reinforcement learning, outperforms the strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o, achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web and VideoMME-long, respectively. Our work advances the multimodal agents toward more human-like long-term memory and provides insights into their practical design. Model, code and data are available at https://github.com/bytedance-seed/m3-agent
PDF221August 14, 2025