보기, 듣기, 기억하기, 추론하기: 장기 기억을 가진 멀티모달 에이전트
Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory
August 13, 2025
저자: Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
cs.AI
초록
우리는 장기 기억을 갖춘 새로운 멀티모달 에이전트 프레임워크인 M3-Agent를 소개합니다. 인간과 마찬가지로 M3-Agent는 실시간 시각 및 청각 입력을 처리하여 장기 기억을 구축하고 업데이트할 수 있습니다. 에피소드 기억을 넘어, 이는 의미 기억도 발전시켜 시간이 지남에 따라 세계 지식을 축적할 수 있습니다. M3-Agent의 기억은 엔티티 중심의 멀티모달 형식으로 조직되어 환경에 대한 더 깊고 일관된 이해를 가능하게 합니다. 주어진 지시에 따라 M3-Agent는 자율적으로 다중 턴의 반복적 추론을 수행하고 기억에서 관련 정보를 검색하여 작업을 완료합니다. 멀티모달 에이전트의 기억 효과성과 기억 기반 추론을 평가하기 위해, 우리는 새로운 장기 비디오 질문 응답 벤치마크인 M3-Bench를 개발했습니다. M3-Bench는 로봇의 관점에서 촬영된 100개의 새로운 실세계 비디오(M3-Bench-robot)와 다양한 시나리오에서 수집된 929개의 웹 기반 비디오(M3-Bench-web)로 구성됩니다. 우리는 에이전트 애플리케이션에 필수적인 핵심 능력(예: 인간 이해, 일반 지식 추출, 크로스모달 추론)을 테스트하기 위해 설계된 질문-응답 쌍을 주석 처리했습니다. 실험 결과, 강화 학습을 통해 훈련된 M3-Agent는 Gemini-1.5-pro와 GPT-4o를 사용한 프롬프팅 에이전트라는 가장 강력한 베이스라인을 능가하며, M3-Bench-robot, M3-Bench-web 및 VideoMME-long에서 각각 6.7%, 7.7%, 5.3% 더 높은 정확도를 달성했습니다. 우리의 연구는 멀티모달 에이전트를 더 인간적인 장기 기억을 갖추도록 발전시키고, 실용적인 설계에 대한 통찰을 제공합니다. 모델, 코드 및 데이터는 https://github.com/bytedance-seed/m3-agent에서 확인할 수 있습니다.
English
We introduce M3-Agent, a novel multimodal agent framework equipped with
long-term memory. Like humans, M3-Agent can process real-time visual and
auditory inputs to build and update its long-term memory. Beyond episodic
memory, it also develops semantic memory, enabling it to accumulate world
knowledge over time. Its memory is organized in an entity-centric, multimodal
format, allowing deeper and more consistent understanding of the environment.
Given an instruction, M3-Agent autonomously performs multi-turn, iterative
reasoning and retrieves relevant information from memory to accomplish the
task. To evaluate memory effectiveness and memory-based reasoning in multimodal
agents, we develop M3-Bench, a new long-video question answering benchmark.
M3-Bench comprises 100 newly recorded real-world videos captured from a robot's
perspective (M3-Bench-robot) and 929 web-sourced videos across diverse
scenarios (M3-Bench-web). We annotate question-answer pairs designed to test
key capabilities essential for agent applications, such as human understanding,
general knowledge extraction, and cross-modal reasoning. Experimental results
show that M3-Agent, trained via reinforcement learning, outperforms the
strongest baseline, a prompting agent using Gemini-1.5-pro and GPT-4o,
achieving 6.7%, 7.7%, and 5.3% higher accuracy on M3-Bench-robot, M3-Bench-web
and VideoMME-long, respectively. Our work advances the multimodal agents toward
more human-like long-term memory and provides insights into their practical
design. Model, code and data are available at
https://github.com/bytedance-seed/m3-agent