Quel paradigme de pré-entraînement sert mieux l'intelligence spatiale ? Une comparaison empirique des modèles de vision-langage et de génération vidéo

Résumé

L'intelligence spatiale nécessite des représentations visuelles qui capturent à la fois les objets sémantiques et la structure géométrique du monde physique. Pour soutenir cela, deux grands schémas de pré-entraînement sont maintenant largement utilisés comme fondations de base : les modèles vision-langage (VLMs), qui utilisent la supervision linguistique pour aligner les observations visuelles sur les concepts sémantiques, et les modèles de génération vidéo (VGMs), qui apprennent à partir de mondes visuels évoluant temporellement. Cependant, il reste encore incertain quel schéma de pré-entraînement fournit un meilleur substrat de représentation pour l'intelligence spatiale. Dans cet article, nous présentons la première étude systématique de sondage des caractéristiques figées des VLMs et des VGMs à travers trois axes représentatifs de l'intelligence spatiale : le balisage sémantique, le regroupement d'instances et la prédiction de géométrie 3D. En utilisant une sonde légère, notre cadre permet une comparaison contrôlée des informations déjà encodées dans les représentations figées des deux familles de modèles. Les résultats expérimentaux révèlent une complémentarité claire : les VLMs sont plus performants pour le balisage sémantique et le regroupement d'instances, tandis que les VGMs fournissent des signaux plus accessibles pour la géométrie dense et le mouvement de la caméra. De plus, une fusion naïve des deux produit déjà une représentation qui excelle à la fois en géométrie et en sémantique, suggérant une direction prometteuse pour construire des fondations d'intelligence spatiale plus robustes en intégrant efficacement les caractéristiques des deux familles de modèles. Notre code est disponible sur https://github.com/om-ai-lab/Probing-VLM-VGM.

English

Spatial intelligence requires visual representations that capture both semantic objects and geometric structure in the physical world. To support this, two major pre-training schemes are now widely used as foundation backbones: Vision-Language Models (VLMs), which use language supervision to align visual observations with semantic concepts, and Video Generation Models (VGMs), which learn from temporally evolving visual worlds. However, it still remains unclear which pre-training scheme provides a better representation substrate for spatial intelligence. In this paper, we present the first systematic frozen-feature probing study of VLMs and VGMs across three representative axes of spatial intelligence: semantic tagging, instance grouping, and 3D geometry prediction. Using the lightweight probe, our framework enables a controlled comparison of what information is already encoded in frozen representations from two model families. Experimental results reveal a clear complementarity: VLMs are stronger at semantic tagging and instance grouping, while VGMs provide more accessible signals for dense geometry and camera motion. Moreover, a naive fusion of the two already yields a representation that excels at both geometry and semantics, suggesting a promising direction for building stronger spatial-intelligence backbones by effectively integrating features from both model families. Our code is available at https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}.