VLM4D: 시공간 인식을 위한 비전 언어 모델 연구
VLM4D: Towards Spatiotemporal Awareness in Vision Language Models
August 4, 2025
저자: Shijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi
cs.AI
초록
비전 언어 모델(VLMs)은 언어적 및 시각적 추론을 통합하는 데 있어 뛰어난 능력을 보여왔지만, 동적인 시공간 상호작용을 이해하는 데 있어 근본적인 한계를 지니고 있다. 인간은 물체의 움직임, 회전, 시점 변화를 쉽게 추적하고 추론할 수 있는 반면, 이러한 능력은 현재의 VLMs에서 현저히 부족하며, 이는 강력한 동적 현실 세계 이해에 필수적이다. 본 논문에서는 VLMs의 시공간 추론 능력을 평가하기 위해 특별히 설계된 첫 번째 벤치마크인 VLM4D를 소개한다. 우리의 벤치마크는 다양한 실제 및 합성 비디오와 함께, 병진 및 회전 운동, 시점 인식, 그리고 운동 연속성을 강조하는 신중하게 선별된 질문-답변 쌍으로 구성되어 있다. 최신 오픈소스 및 클로즈드소스 VLMs에 대한 포괄적인 평가를 통해 인간 기준과 비교했을 때 상당한 성능 격차를 확인하였으며, 이는 기존 모델들의 근본적인 결함을 강조한다. 광범위한 분석을 통해 VLMs이 특히 여러 시각적 단서를 통합하고 시간적 일관성을 유지하는 데 어려움을 겪고 있음을 밝혔다. 또한, 4D 특징 필드 재구성 및 대상 시공간 지도 미세 조정과 같은 유망한 방향을 탐구하며, 이를 통해 시공간 이해를 향상시키는 데 효과적임을 입증하였다. 본 연구는 VLMs의 공간적 및 시간적 기반을 개선하기 위한 더 깊은 탐구를 장려하며, 동적 환경을 위한 더 능력 있고 신뢰할 수 있는 시각 지능으로 나아가는 길을 열고자 한다.
English
Vision language models (VLMs) have shown remarkable capabilities in
integrating linguistic and visual reasoning but remain fundamentally limited in
understanding dynamic spatiotemporal interactions. Humans effortlessly track
and reason about object movements, rotations, and perspective shifts-abilities
essential for robust dynamic real-world understanding yet notably lacking in
current VLMs. In this paper, we introduce VLM4D, the first benchmark
specifically designed to evaluate the spatiotemporal reasoning capabilities of
VLMs. Our benchmark comprises diverse real-world and synthetic videos
accompanied by carefully curated question-answer pairs emphasizing
translational and rotational motions, perspective awareness, and motion
continuity. Through comprehensive evaluations of state-of-the-art open and
closed-source VLMs, we identify significant performance gaps compared to human
baselines, highlighting fundamental deficiencies in existing models. Extensive
analysis reveals that VLMs struggle particularly with integrating multiple
visual cues and maintaining temporal coherence. We further explore promising
directions, such as leveraging 4D feature field reconstruction and targeted
spatiotemporal supervised fine-tuning, demonstrating their effectiveness in
enhancing spatiotemporal comprehension. Our work aims to encourage deeper
exploration into improving VLMs' spatial and temporal grounding, paving the way
towards more capable and reliable visual intelligence for dynamic environments.