Какая парадигма предварительного обучения лучше служит пространственному интеллекту? Эмпирическое сравнение визуально-языковых моделей и моделей генерации видео

Аннотация

Пространственный интеллект требует визуальных представлений, которые отражают как семантические объекты, так и геометрическую структуру физического мира. Для поддержки этой задачи в настоящее время широко используются две основные схемы предварительного обучения в качестве фундаментальных бэкбонов: модели зрения и языка (Vision-Language Models, VLM), которые используют языковое сопровождение для согласования визуальных наблюдений с семантическими концептами, и модели генерации видео (Video Generation Models, VGM), обучающиеся на временно эволюционирующих визуальных мирах. Тем не менее, остается неясным, какая схема предварительного обучения обеспечивает лучший субстрат представлений для пространственного интеллекта. В данной работе мы представляем первое систематическое исследование замороженных признаков (frozen-feature probing) для VLM и VGM по трем репрезентативным осям пространственного интеллекта: семантическая разметка, группировка экземпляров и предсказание 3D-геометрии. Используя легковесный пробинг, наш фреймворк позволяет контролируемо сравнить, какая информация уже закодирована в замороженных представлениях из двух семейств моделей. Результаты экспериментов выявляют явную взаимодополняемость: VLM сильнее в семантической разметке и группировке экземпляров, тогда как VGM предоставляют более доступные сигналы для плотной геометрии и движения камеры. Более того, наивное объединение двух подходов уже дает представление, которое превосходит как в геометрии, так и в семантике, что указывает на перспективное направление для создания более сильных бэкбонов пространственного интеллекта путем эффективной интеграции признаков из обоих семейств моделей. Наш код доступен по адресу https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}.

English

Spatial intelligence requires visual representations that capture both semantic objects and geometric structure in the physical world. To support this, two major pre-training schemes are now widely used as foundation backbones: Vision-Language Models (VLMs), which use language supervision to align visual observations with semantic concepts, and Video Generation Models (VGMs), which learn from temporally evolving visual worlds. However, it still remains unclear which pre-training scheme provides a better representation substrate for spatial intelligence. In this paper, we present the first systematic frozen-feature probing study of VLMs and VGMs across three representative axes of spatial intelligence: semantic tagging, instance grouping, and 3D geometry prediction. Using the lightweight probe, our framework enables a controlled comparison of what information is already encoded in frozen representations from two model families. Experimental results reveal a clear complementarity: VLMs are stronger at semantic tagging and instance grouping, while VGMs provide more accessible signals for dense geometry and camera motion. Moreover, a naive fusion of the two already yields a representation that excels at both geometry and semantics, suggesting a promising direction for building stronger spatial-intelligence backbones by effectively integrating features from both model families. Our code is available at https://github.com/om-ai-lab/Probing-VLM-VGM{https://github.com/om-ai-lab/Probing-VLM-VGM}.