ChatPaper.aiChatPaper

어느 사전 학습 패러다임이 공간 지능에 더 효과적인가? 시각-언어 모델과 비디오 생성 모델의 경험적 비교

Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

May 27, 2026
저자: Haozhan Shen, Tiancheng Zhao, Kangjia Zhao, Jianwei Yin
cs.AI

초록

공간 지능은 물리적 세계에서 의미적 객체와 기하학적 구조를 모두 포착하는 시각적 표현을 필요로 한다. 이를 지원하기 위해 현재 두 가지 주요 사전 학습 방식이 기초 백본으로 널리 사용된다: 언어 감독을 통해 시각적 관찰을 의미적 개념과 정렬하는 시각-언어 모델(VLM)과 시간적으로 진화하는 시각적 세계로부터 학습하는 영상 생성 모델(VGM)이 그것이다. 그러나 어떤 사전 학습 방식이 공간 지능에 더 나은 표현 기반을 제공하는지는 여전히 불분명하다. 본 논문에서는 공간 지능의 세 가지 대표적 축인 의미 태깅, 인스턴스 그룹화, 3차원 기하 예측에 걸쳐 VLM과 VGM에 대한 최초의 체계적인 고정 특성 탐침 연구를 제시한다. 경량 탐침을 활용한 우리의 프레임워크는 두 모델 계열의 고정 표현에 이미 인코딩된 정보가 무엇인지에 대한 통제된 비교를 가능하게 한다. 실험 결과는 명확한 상보성을 드러낸다: VLM은 의미 태깅과 인스턴스 그룹화에서 더 강력한 반면, VGM은 밀집 기하와 카메라 움직임에 대한 더 접근성 높은 신호를 제공한다. 더욱이, 두 모델의 단순한 융합만으로도 기하와 의미 모두에서 뛰어난 표현을 제공하며, 이는 두 모델 계열의 특징을 효과적으로 통합함으로써 더 강력한 공간 지능 백본을 구축하기 위한 유망한 방향을 시사한다. 우리의 코드는 https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}에서 확인할 수 있다.
English
Spatial intelligence requires visual representations that capture both semantic objects and geometric structure in the physical world. To support this, two major pre-training schemes are now widely used as foundation backbones: Vision-Language Models (VLMs), which use language supervision to align visual observations with semantic concepts, and Video Generation Models (VGMs), which learn from temporally evolving visual worlds. However, it still remains unclear which pre-training scheme provides a better representation substrate for spatial intelligence. In this paper, we present the first systematic frozen-feature probing study of VLMs and VGMs across three representative axes of spatial intelligence: semantic tagging, instance grouping, and 3D geometry prediction. Using the lightweight probe, our framework enables a controlled comparison of what information is already encoded in frozen representations from two model families. Experimental results reveal a clear complementarity: VLMs are stronger at semantic tagging and instance grouping, while VGMs provide more accessible signals for dense geometry and camera motion. Moreover, a naive fusion of the two already yields a representation that excels at both geometry and semantics, suggesting a promising direction for building stronger spatial-intelligence backbones by effectively integrating features from both model families. Our code is available at https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}.