VideoLoom:時空間統合理解のためのビデオ大規模言語モデル
VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding
January 12, 2026
著者: Jiapeng Shi, Junke Wang, Zuyao You, Bo He, Zuxuan Wu
cs.AI
要旨
本論文では、時空間統合理解のための統一ビデオ大規模言語モデル(Video LLM)であるVideoLoomを提案する。細粒度の空間的・時間的定位能力の発展を促進するため、時間的に接地され空間的に局所化されたキャプションを付与した人物中心のビデオデータセットLoomData-8.7kを構築した。これにより、VideoLoomは多様な空間的・時間的ベンチマークにおいて、state-of-the-artまたは高い競争力を示す性能を達成している(例:参照対象ビデオ物体分割タスクReVOSにおける63.1 J&F、時間的定位タスクCharades-STAにおける48.3 R1@0.7)。さらに、時間的・空間的・合成的なビデオ質問ペアから構成される新規ベンチマークLoomBenchを導入し、Video LLMの多角的な総合評価を可能とする。これらの貢献は、時空間統合ビデオ理解のための普遍的かつ効果的なソリューションを提供し、マルチモーダル知能における新たな基準を確立するものである。
English
This paper presents VideoLoom, a unified Video Large Language Model (Video LLM) for joint spatial-temporal understanding. To facilitate the development of fine-grained spatial and temporal localization capabilities, we curate LoomData-8.7k, a human-centric video dataset with temporally grounded and spatially localized captions. With this, VideoLoom achieves state-of-the-art or highly competitive performance across a variety of spatial and temporal benchmarks (e.g., 63.1 J&F on ReVOS for referring video object segmentation, and 48.3 R1@0.7 on Charades-STA for temporal grounding). In addition, we introduce LoomBench, a novel benchmark consisting of temporal, spatial, and compositional video-question pairs, enabling a comprehensive evaluation of Video LLMs from diverse aspects. Collectively, these contributions offer a universal and effective suite for joint spatial-temporal video understanding, setting a new standard in multimodal intelligence.