VideoLoom: Un Modello Linguistico di Grandi Dimensioni per Video per la Comprensione Spazio-Temporale Congiunta
VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding
January 12, 2026
Autori: Jiapeng Shi, Junke Wang, Zuyao You, Bo He, Zuxuan Wu
cs.AI
Abstract
Questo articolo presenta VideoLoom, un Modello Linguistico di Grande Dimensione per Video (Video LLM) unificato per la comprensione spazio-temporale congiunta. Per facilitare lo sviluppo di capacità di localizzazione spaziale e temporale fine, abbiamo curato LoomData-8.7k, un dataset video incentrato sull'umano con didascalie temporalmente ancorate e spazialmente localizzate. Grazie a ciò, VideoLoom raggiunge prestazioni allo stato dell'arte o altamente competitive su una varietà di benchmark spaziali e temporali (ad esempio, 63.1 J&F su ReVOS per la segmentazione di oggetti video referenziali e 48.3 R1@0.7 su Charades-STA per l'ancoraggio temporale). Inoltre, introduciamo LoomBench, un nuovo benchmark costituito da coppie video-domanda temporali, spaziali e compositive, che consente una valutazione completa dei Video LLM da diverse prospettive. Nel complesso, questi contributi offrono una suite universale ed efficace per la comprensione video spazio-temporale congiunta, stabilendo un nuovo standard nell'intelligenza multimodale.
English
This paper presents VideoLoom, a unified Video Large Language Model (Video LLM) for joint spatial-temporal understanding. To facilitate the development of fine-grained spatial and temporal localization capabilities, we curate LoomData-8.7k, a human-centric video dataset with temporally grounded and spatially localized captions. With this, VideoLoom achieves state-of-the-art or highly competitive performance across a variety of spatial and temporal benchmarks (e.g., 63.1 J&F on ReVOS for referring video object segmentation, and 48.3 R1@0.7 on Charades-STA for temporal grounding). In addition, we introduce LoomBench, a novel benchmark consisting of temporal, spatial, and compositional video-question pairs, enabling a comprehensive evaluation of Video LLMs from diverse aspects. Collectively, these contributions offer a universal and effective suite for joint spatial-temporal video understanding, setting a new standard in multimodal intelligence.