ChatPaper.aiChatPaper

どの事前学習パラダイムが空間知能により適しているか?:視覚言語モデルと動画生成モデルの実証比較

Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

May 27, 2026
著者: Haozhan Shen, Tiancheng Zhao, Kangjia Zhao, Jianwei Yin
cs.AI

要旨

空間知能には、物理的世界における意味的対象と幾何学的構造の両方を捉える視覚的表現が必要である。これを支援するため、現在2つの主要な事前学習手法が基盤バックボーンとして広く用いられている。すなわち、言語による教師信号を用いて視覚的観測と意味的概念を整合させる視覚言語モデル(VLM)と、時間的に発展する視覚的世界から学習する映像生成モデル(VGM)である。しかしながら、空間知能に対してどちらの事前学習手法がより優れた表現基盤を提供するかは依然として明らかでない。本論文では、空間知能の3つの代表的な軸(意味的タグ付け、インスタンスグルーピング、3次元幾何予測)にわたるVLMとVGMの初の系統的frozen特徴量プロービング研究を提示する。軽量プローブを用いることで、我々のフレームワークは2つのモデルファミリーのfrozen表現に既に符号化されている情報の制御された比較を可能にする。実験結果は明確な相補性を明らかにする。すなわち、VLMは意味的タグ付けとインスタンスグルーピングにおいて優れ、一方VGMは高密度幾何とカメラ運動に対してよりアクセスしやすい信号を提供する。さらに、両者の単純な融合により、幾何と意味の両方に優れる表現がすでに得られ、これは両モデルファミリーからの特徴を効果的に統合することで、より強力な空間知能バックボーンを構築する有望な方向性を示唆する。我々のコードはhttps://github.com/om-ai-lab/Probing-VLM-VGMで公開されている。
English
Spatial intelligence requires visual representations that capture both semantic objects and geometric structure in the physical world. To support this, two major pre-training schemes are now widely used as foundation backbones: Vision-Language Models (VLMs), which use language supervision to align visual observations with semantic concepts, and Video Generation Models (VGMs), which learn from temporally evolving visual worlds. However, it still remains unclear which pre-training scheme provides a better representation substrate for spatial intelligence. In this paper, we present the first systematic frozen-feature probing study of VLMs and VGMs across three representative axes of spatial intelligence: semantic tagging, instance grouping, and 3D geometry prediction. Using the lightweight probe, our framework enables a controlled comparison of what information is already encoded in frozen representations from two model families. Experimental results reveal a clear complementarity: VLMs are stronger at semantic tagging and instance grouping, while VGMs provide more accessible signals for dense geometry and camera motion. Moreover, a naive fusion of the two already yields a representation that excels at both geometry and semantics, suggesting a promising direction for building stronger spatial-intelligence backbones by effectively integrating features from both model families. Our code is available at https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}.