¿Qué paradigma de preentrenamiento sirve mejor a la inteligencia espacial? Una comparación empírica de modelos de visión-lenguaje y generación de video.

Resumen

La inteligencia espacial requiere representaciones visuales que capturen tanto objetos semánticos como la estructura geométrica del mundo físico. Para respaldar esto, dos esquemas principales de preentrenamiento se utilizan actualmente como backbones fundamentales: los Modelos de Visión y Lenguaje (VLMs), que emplean supervisión lingüística para alinear observaciones visuales con conceptos semánticos, y los Modelos de Generación de Video (VGMs), que aprenden de mundos visuales que evolucionan temporalmente. Sin embargo, aún no está claro qué esquema de preentrenamiento proporciona un mejor sustrato de representación para la inteligencia espacial. En este artículo, presentamos el primer estudio sistemático de sondeo de características congeladas de VLMs y VGMs a lo largo de tres ejes representativos de la inteligencia espacial: etiquetado semántico, agrupación de instancias y predicción de geometría 3D. Mediante una sonda ligera, nuestro marco permite una comparación controlada de qué información ya está codificada en las representaciones congeladas de dos familias de modelos. Los resultados experimentales revelan una clara complementariedad: los VLMs son más fuertes en etiquetado semántico y agrupación de instancias, mientras que los VGMs proporcionan señales más accesibles para la geometría densa y el movimiento de cámara. Además, una fusión ingenua de ambos ya produce una representación que sobresale tanto en geometría como en semántica, lo que sugiere una dirección prometedora para construir backbones de inteligencia espacial más robustos mediante la integración efectiva de características de ambas familias de modelos. Nuestro código está disponible en https://github.com/om-ai-lab/Probing-VLM-VGM.

English

Spatial intelligence requires visual representations that capture both semantic objects and geometric structure in the physical world. To support this, two major pre-training schemes are now widely used as foundation backbones: Vision-Language Models (VLMs), which use language supervision to align visual observations with semantic concepts, and Video Generation Models (VGMs), which learn from temporally evolving visual worlds. However, it still remains unclear which pre-training scheme provides a better representation substrate for spatial intelligence. In this paper, we present the first systematic frozen-feature probing study of VLMs and VGMs across three representative axes of spatial intelligence: semantic tagging, instance grouping, and 3D geometry prediction. Using the lightweight probe, our framework enables a controlled comparison of what information is already encoded in frozen representations from two model families. Experimental results reveal a clear complementarity: VLMs are stronger at semantic tagging and instance grouping, while VGMs provide more accessible signals for dense geometry and camera motion. Moreover, a naive fusion of the two already yields a representation that excels at both geometry and semantics, suggesting a promising direction for building stronger spatial-intelligence backbones by effectively integrating features from both model families. Our code is available at https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}.