Qual Paradigma de Pré-treinamento Melhor Atende à Inteligência Espacial? Uma Comparação Empírica entre Modelos de Visão-Linguagem e Geração de Vídeo

Resumo

A inteligência espacial requer representações visuais que capturem tanto objetos semânticos quanto a estrutura geométrica do mundo físico. Para apoiar isso, dois grandes esquemas de pré-treinamento são hoje amplamente utilizados como backbones fundamentais: Modelos Visão-Linguagem (MVLs), que usam supervisão de linguagem para alinhar observações visuais com conceitos semânticos, e Modelos de Geração de Vídeo (MGVs), que aprendem a partir de mundos visuais em evolução temporal. No entanto, ainda não está claro qual esquema de pré-treinamento fornece um substrato de representação mais adequado para a inteligência espacial. Neste artigo, apresentamos o primeiro estudo sistemático de sondagem de características congeladas de MVLs e MGVs em três eixos representativos da inteligência espacial: rotulagem semântica, agrupamento de instâncias e predição de geometria 3D. Utilizando uma sonda leve, nossa estrutura permite uma comparação controlada de quais informações já estão codificadas em representações congeladas provenientes das duas famílias de modelos. Os resultados experimentais revelam uma clara complementaridade: MVLs são mais fortes em rotulagem semântica e agrupamento de instâncias, enquanto MGVs fornecem sinais mais acessíveis para geometria densa e movimento de câmera. Além disso, uma fusão ingênua dos dois já produz uma representação que se destaca tanto em geometria quanto em semântica, sugerindo um caminho promissor para construir backbones de inteligência espacial mais robustos por meio da integração eficaz de características de ambas as famílias de modelos. Nosso código está disponível em https://github.com/om-ai-lab/Probing-VLM-VGM.

English

Spatial intelligence requires visual representations that capture both semantic objects and geometric structure in the physical world. To support this, two major pre-training schemes are now widely used as foundation backbones: Vision-Language Models (VLMs), which use language supervision to align visual observations with semantic concepts, and Video Generation Models (VGMs), which learn from temporally evolving visual worlds. However, it still remains unclear which pre-training scheme provides a better representation substrate for spatial intelligence. In this paper, we present the first systematic frozen-feature probing study of VLMs and VGMs across three representative axes of spatial intelligence: semantic tagging, instance grouping, and 3D geometry prediction. Using the lightweight probe, our framework enables a controlled comparison of what information is already encoded in frozen representations from two model families. Experimental results reveal a clear complementarity: VLMs are stronger at semantic tagging and instance grouping, while VGMs provide more accessible signals for dense geometry and camera motion. Moreover, a naive fusion of the two already yields a representation that excels at both geometry and semantics, suggesting a promising direction for building stronger spatial-intelligence backbones by effectively integrating features from both model families. Our code is available at https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}.