WorldMM: 長尺動画推論のための動的マルチモーダルメモリエージェント
WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
December 2, 2025
著者: Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang
cs.AI
要旨
近年、ビデオ大規模言語モデルの進歩により、短いクリップの理解において優れた能力が示されてきた。しかし、コンテキスト容量の限界や抽象化における重要な視覚的詳細の喪失により、数時間から数日にわたる長尺ビデオへの拡張は依然として大きな課題である。既存のメモリ拡張手法は、ビデオセグメントのテキスト要約を活用することでこの問題を緩和するが、テキストへの依存度が高く、複雑なシーンを推論する際に視覚的証拠を活用できない。さらに、固定された時間スケールからの検索は、可変的な時間幅にわたるイベントの捕捉において柔軟性をさらに制限する。これに対処するため、我々はWorldMMを提案する。これは、テキスト表現と視覚表現の両方を含む複数の相補的メモリを構築し、そこから検索を行う新しいマルチモーダルメモリエージェントである。WorldMMは3種類のメモリで構成される:エピソード記憶は複数の時間スケールにわたる事実的イベントを索引化し、意味記憶は高水準の概念的知識を継続的に更新し、視覚記憶はシーンに関する詳細な情報を保持する。推論時には、適応的検索エージェントが、クエリに基づいて最も関連性の高いメモリソースを反復的に選択し、複数の時間的粒度を活用する。これは、十分な情報が収集されたと判断されるまで継続される。WorldMMは、5つの長尺ビデオ質問応答ベンチマークにおいて既存のベースラインを大幅に上回り、従来の最先端手法と比較して平均8.4%の性能向上を達成し、長尺ビデオ推論におけるその有効性を示している。
English
Recent advances in video large language models have demonstrated strong capabilities in understanding short clips. However, scaling them to hours- or days-long videos remains highly challenging due to limited context capacity and the loss of critical visual details during abstraction. Existing memory-augmented methods mitigate this by leveraging textual summaries of video segments, yet they heavily rely on text and fail to utilize visual evidence when reasoning over complex scenes. Moreover, retrieving from fixed temporal scales further limits their flexibility in capturing events that span variable durations. To address this, we introduce WorldMM, a novel multimodal memory agent that constructs and retrieves from multiple complementary memories, encompassing both textual and visual representations. WorldMM comprises three types of memory: episodic memory indexes factual events across multiple temporal scales, semantic memory continuously updates high-level conceptual knowledge, and visual memory preserves detailed information about scenes. During inference, an adaptive retrieval agent iteratively selects the most relevant memory source and leverages multiple temporal granularities based on the query, continuing until it determines that sufficient information has been gathered. WorldMM significantly outperforms existing baselines across five long video question-answering benchmarks, achieving an average 8.4% performance gain over previous state-of-the-art methods, showing its effectiveness on long video reasoning.