VideoLoom: 공간-시간 통합 이해를 위한 비디오 대규모 언어 모델
VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding
January 12, 2026
저자: Jiapeng Shi, Junke Wang, Zuyao You, Bo He, Zuxuan Wu
cs.AI
초록
본 논문은 공간-시간적 통합 이해를 위한 통합 비디오 대규모 언어 모델(Video LLM)인 VideoLoom을 제안한다. 세밀한 공간 및 시간 위치 지정 능력 개발을 위해, 우리는 시간적으로 근거 있고 공간적으로 지역화된 캡션으로 구성된 인간 중심 비디오 데이터셋인 LoomData-8.7k를 구축하였다. 이를 통해 VideoLoom은 다양한 공간 및 시간 벤치마크에서 최첨단 또는 매우 경쟁력 있는 성능을 달성한다(예: 참조 비디오 객체 분할을 위한 ReVOS에서 63.1 J&F, 시간적 위치 지정을 위한 Charades-STA에서 48.3 R1@0.7). 또한, 우리는 시간적, 공간적, 구성적 비디오-질문 쌍으로 구성된 새로운 벤치마크인 LoomBench을 소개하며, 다양한 측면에서 Video LLM의 포괄적 평가를 가능하게 한다. 종합적으로, 이러한 기여들은 공간-시간적 비디오 이해를 위한 보편적이고 효과적인 도구 세트를 제공하며, 다중 모드 인텔리전스 분야에 새로운 기준을 제시한다.
English
This paper presents VideoLoom, a unified Video Large Language Model (Video LLM) for joint spatial-temporal understanding. To facilitate the development of fine-grained spatial and temporal localization capabilities, we curate LoomData-8.7k, a human-centric video dataset with temporally grounded and spatially localized captions. With this, VideoLoom achieves state-of-the-art or highly competitive performance across a variety of spatial and temporal benchmarks (e.g., 63.1 J&F on ReVOS for referring video object segmentation, and 48.3 R1@0.7 on Charades-STA for temporal grounding). In addition, we introduce LoomBench, a novel benchmark consisting of temporal, spatial, and compositional video-question pairs, enabling a comprehensive evaluation of Video LLMs from diverse aspects. Collectively, these contributions offer a universal and effective suite for joint spatial-temporal video understanding, setting a new standard in multimodal intelligence.