Welches Vorabtrainingsparadigma dient der räumlichen Intelligenz besser? Ein empirischer Vergleich von Vision-Language- und Videogenerierungsmodellen

Zusammenfassung

Räumliche Intelligenz erfordert visuelle Repräsentationen, die sowohl semantische Objekte als auch geometrische Strukturen in der physischen Welt erfassen. Um dies zu unterstützen, werden heute zwei wichtige Pre-Training-Schemata als grundlegende Backbones weit verbreitet eingesetzt: Vision-Language-Modelle (VLMs), die Sprachüberwachung nutzen, um visuelle Beobachtungen mit semantischen Konzepten abzugleichen, und Video-Generierungsmodelle (VGMs), die aus zeitlich sich entwickelnden visuellen Welten lernen. Es bleibt jedoch unklar, welches Pre-Training-Schema ein besseres Repräsentationssubstrat für räumliche Intelligenz bietet. In dieser Arbeit präsentieren wir die erste systematische Frozen-Feature-Probing-Studie von VLMs und VGMs entlang dreier repräsentativer Achsen räumlicher Intelligenz: semantisches Tagging, Instanzen-Gruppierung und 3D-Geometrie-Vorhersage. Mithilfe des leichtgewichtigen Probes ermöglicht unser Framework einen kontrollierten Vergleich darüber, welche Informationen bereits in den eingefrorenen Repräsentationen der beiden Modellfamilien kodiert sind. Die experimentellen Ergebnisse zeigen eine klare Komplementarität: VLMs sind stärker im semantischen Tagging und in der Instanzen-Gruppierung, während VGMs zugänglichere Signale für dichte Geometrie und Kamerabewegung liefern. Darüber hinaus liefert eine naive Fusion der beiden bereits eine Repräsentation, die sowohl in Geometrie als auch in Semantik herausragt, was auf eine vielversprechende Richtung für den Aufbau stärkerer Raumintelligenz-Backbones durch effektive Integration von Merkmalen aus beiden Modellfamilien hindeutet. Unser Code ist verfügbar unter https://github.com/om-ai-lab/Probing-VLM-VGM.

English

Spatial intelligence requires visual representations that capture both semantic objects and geometric structure in the physical world. To support this, two major pre-training schemes are now widely used as foundation backbones: Vision-Language Models (VLMs), which use language supervision to align visual observations with semantic concepts, and Video Generation Models (VGMs), which learn from temporally evolving visual worlds. However, it still remains unclear which pre-training scheme provides a better representation substrate for spatial intelligence. In this paper, we present the first systematic frozen-feature probing study of VLMs and VGMs across three representative axes of spatial intelligence: semantic tagging, instance grouping, and 3D geometry prediction. Using the lightweight probe, our framework enables a controlled comparison of what information is already encoded in frozen representations from two model families. Experimental results reveal a clear complementarity: VLMs are stronger at semantic tagging and instance grouping, while VGMs provide more accessible signals for dense geometry and camera motion. Moreover, a naive fusion of the two already yields a representation that excels at both geometry and semantics, suggesting a promising direction for building stronger spatial-intelligence backbones by effectively integrating features from both model families. Our code is available at https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}.