Видеть, слышать, запоминать и рассуждать: мультимодальный агент с долговременной памятью

Аннотация

Мы представляем M3-Agent — новую мультимодальную агентскую платформу, оснащённую долговременной памятью. Подобно человеку, M3-Agent способен обрабатывать визуальные и аудиовходы в реальном времени для построения и обновления своей долговременной памяти. Помимо эпизодической памяти, он также развивает семантическую память, что позволяет ему накапливать знания о мире с течением времени. Его память организована в объектно-ориентированном мультимодальном формате, что обеспечивает более глубокое и последовательное понимание окружающей среды. Получив инструкцию, M3-Agent автономно выполняет многошаговое итеративное рассуждение и извлекает релевантную информацию из памяти для выполнения задачи. Для оценки эффективности памяти и рассуждений на основе памяти у мультимодальных агентов мы разработали M3-Bench — новый бенчмарк для ответов на вопросы по длинным видео. M3-Bench включает 100 новых записей реальных видео, снятых с перспективы робота (M3-Bench-robot), и 929 веб-видео из различных сценариев (M3-Bench-web). Мы аннотировали пары вопросов и ответов, предназначенные для проверки ключевых способностей, необходимых для приложений агентов, таких как понимание человека, извлечение общих знаний и кросс-модальное рассуждение. Результаты экспериментов показывают, что M3-Agent, обученный с использованием обучения с подкреплением, превосходит самый сильный базовый подход — агент с подсказками, использующий Gemini-1.5-pro и GPT-4o, достигая на 6,7%, 7,7% и 5,3% более высокой точности на M3-Bench-robot, M3-Bench-web и VideoMME-long соответственно. Наша работа продвигает мультимодальных агентов в сторону более человеко-подобной долговременной памяти и предоставляет инсайты для их практического проектирования. Модель, код и данные доступны по адресу https://github.com/bytedance-seed/m3-agent.

English

We introduce M3-Agent, a novel multimodal agent framework equipped with long-term memory. Like humans, M3-Agent can process real-time visual and auditory inputs to build and update its long-term memory. Beyond episodic memory, it also develops semantic memory, enabling it to accumulate world knowledge over time. Its memory is organized in an entity-centric, multimodal format, allowing deeper and more consistent understanding of the environment. Given an instruction, M3-Agent autonomously performs multi-turn, iterative reasoning and retrieves relevant information from memory to accomplish the task. To evaluate memory effectiveness and memory-based reasoning in multimodal agents, we develop M3-Bench, a new long-video question answering benchmark. M3-Bench comprises 100 newly recorded real-world videos captured from a robot's perspective (M3-Bench-robot) and 929 web-sourced videos across diverse scenarios (M3-Bench-web). We annotate question-answer pairs designed to test key capabilities essential for agent applications, such as human understanding, general knowledge extraction, and cross-modal reasoning. Experimental results show that M3-Agent, trained via reinforcement learning, outperforms the strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o, achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web and VideoMME-long, respectively. Our work advances the multimodal agents toward more human-like long-term memory and provides insights into their practical design. Model, code and data are available at https://github.com/bytedance-seed/m3-agent

Видеть, слышать, запоминать и рассуждать: мультимодальный агент с долговременной памятью

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

Аннотация

Support