Видеть, слышать, запоминать и рассуждать: мультимодальный агент с долговременной памятью
Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
August 13, 2025
Авторы: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
cs.AI
Аннотация
Мы представляем M3-Agent — новую мультимодальную агентскую платформу, оснащённую долговременной памятью. Подобно человеку, M3-Agent способен обрабатывать визуальные и аудиовходы в реальном времени для построения и обновления своей долговременной памяти. Помимо эпизодической памяти, он также развивает семантическую память, что позволяет ему накапливать знания о мире с течением времени. Его память организована в объектно-ориентированном мультимодальном формате, что обеспечивает более глубокое и последовательное понимание окружающей среды. Получив инструкцию, M3-Agent автономно выполняет многошаговое итеративное рассуждение и извлекает релевантную информацию из памяти для выполнения задачи. Для оценки эффективности памяти и рассуждений на основе памяти у мультимодальных агентов мы разработали M3-Bench — новый бенчмарк для ответов на вопросы по длинным видео. M3-Bench включает 100 новых записей реальных видео, снятых с перспективы робота (M3-Bench-robot), и 929 веб-видео из различных сценариев (M3-Bench-web). Мы аннотировали пары вопросов и ответов, предназначенные для проверки ключевых способностей, необходимых для приложений агентов, таких как понимание человека, извлечение общих знаний и кросс-модальное рассуждение. Результаты экспериментов показывают, что M3-Agent, обученный с использованием обучения с подкреплением, превосходит самый сильный базовый подход — агент с подсказками, использующий Gemini-1.5-pro и GPT-4o, достигая на 6,7%, 7,7% и 5,3% более высокой точности на M3-Bench-robot, M3-Bench-web и VideoMME-long соответственно. Наша работа продвигает мультимодальных агентов в сторону более человеко-подобной долговременной памяти и предоставляет инсайты для их практического проектирования. Модель, код и данные доступны по адресу https://github.com/bytedance-seed/m3-agent.
English
We introduce M3-Agent, a novel multimodal agent framework equipped with
long-term memory. Like humans, M3-Agent can process real-time visual and
auditory inputs to build and update its long-term memory. Beyond episodic
memory, it also develops semantic memory, enabling it to accumulate world
knowledge over time. Its memory is organized in an entity-centric, multimodal
format, allowing deeper and more consistent understanding of the environment.
Given an instruction, M3-Agent autonomously performs multi-turn, iterative
reasoning and retrieves relevant information from memory to accomplish the
task. To evaluate memory effectiveness and memory-based reasoning in multimodal
agents, we develop M3-Bench, a new long-video question answering benchmark.
M3-Bench comprises 100 newly recorded real-world videos captured from a robot's
perspective (M3-Bench-robot) and 929 web-sourced videos across diverse
scenarios (M3-Bench-web). We annotate question-answer pairs designed to test
key capabilities essential for agent applications, such as human understanding,
general knowledge extraction, and cross-modal reasoning. Experimental results
show that M3-Agent, trained via reinforcement learning, outperforms the
strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o,
achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web
and VideoMME-long, respectively. Our work advances the multimodal agents toward
more human-like long-term memory and provides insights into their practical
design. Model, code and data are available at
https://github.com/bytedance-seed/m3-agent