WorldMM: 장기 비디오 추론을 위한 동적 멀티모달 메모리 에이전트
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
December 2, 2025
저자: Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang
cs.AI
초록
최근 비디오 대규모 언어 모델의 발전은 짧은 클립 이해에 강력한 능력을 보여주고 있습니다. 그러나 제한된 컨텍스트 용량과 추상화 과정에서 발생하는 중요한 시각적 세부 정보의 손실로 인해 수시간 또는 수일 길이의 비디오로 확장하는 것은 여전히 매우 어렵습니다. 기존의 메모리 증강 방법은 비디오 세그먼트의 텍스트 요약을 활용하여 이 문제를 완화하지만, 텍스트에 크게 의존하며 복잡한 장면을 추론할 때 시각적 증거를 활용하지 못합니다. 더욱이 고정된 시간적 규모에서의 검색은 다양한 지속 시간에 걸친 이벤트를 포착하는 데 유연성을 제한합니다. 이를 해결하기 위해 우리는 텍스트 및 시각적 표현을 모두 포함하는 여러 상호 보완적 메모리를 구성하고 검색하는 새로운 멀티모달 메모리 에이전트인 WorldMM을 소개합니다. WorldMM은 세 가지 유형의 메모리로 구성됩니다: 서사적 메모리는 여러 시간적 규모에 걸친 사실적 사건을 인덱싱하고, 의미 메모리는 높은 수준의 개념적 지식을 지속적으로 업데이트하며, 시각적 메모리는 장면에 대한 상세한 정보를 보존합니다. 추론 중에 적응형 검색 에이전트는 가장 관련성이 높은 메모리 소스를 반복적으로 선택하고 쿼리 기반으로 여러 시간적 세분성을 활용하며, 충분한 정보가 수집되었다고 판단할 때까지 이 과정을 계속합니다. WorldMM은 5개의 장기 비디오 질의응답 벤치마크에서 기존 기준선을 크게 능가하며, 기존 최첨단 방법 대비 평균 8.4%의 성능 향상을 달성하여 장기 비디오 추론에 대한 효과를 입증했습니다.
English
Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.