От пространственного восприятия к действиям: обоснование модели "зрение-язык-действие" на пространственных фундаментальных априорных знаниях
From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors
October 20, 2025
Авторы: Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou
cs.AI
Аннотация
Существующие модели "зрение-язык-действие" (VLA) функционируют в трёхмерном реальном мире, но обычно строятся на основе двумерных энкодеров, что создаёт пробел в пространственном мышлении, ограничивающий обобщающую способность и адаптивность. Современные методы интеграции 3D в VLA либо требуют специализированных сенсоров и плохо переносятся между модальностями, либо добавляют слабые сигналы, лишённые геометрии, что ухудшает согласованность между зрением и языком. В данной работе мы представляем FALCON (From Spatial to Action) — новую парадигму, которая внедряет богатые 3D пространственные токены в голову действия. FALCON использует пространственные фундаментальные модели для получения строгих геометрических априорных данных только из RGB-изображений и включает Модель Воплощённого Пространства, которая может при необходимости объединять данные о глубине или позе для повышения точности, если они доступны, без необходимости переобучения или изменений архитектуры. Чтобы сохранить языковое мышление, пространственные токены обрабатываются Пространственно-Усиленной Головой Действия, а не конкатенируются в основу "зрение-язык". Такая конструкция позволяет FALCON преодолеть ограничения в пространственном представлении, переносимости между модальностями и согласованности. В ходе всесторонних оценок на трёх симуляционных бенчмарках и одиннадцати реальных задачах предложенный метод FALCON демонстрирует наилучшую производительность, стабильно превосходит конкурентоспособные базовые методы и сохраняет устойчивость в условиях загромождения, пространственно-условных промптов, а также вариаций масштаба и высоты объектов.
English
Existing vision-language-action (VLA) models act in 3D real-world but are
typically built on 2D encoders, leaving a spatial reasoning gap that limits
generalization and adaptability. Recent 3D integration techniques for VLAs
either require specialized sensors and transfer poorly across modalities, or
inject weak cues that lack geometry and degrade vision-language alignment. In
this work, we introduce FALCON (From Spatial to Action), a novel paradigm that
injects rich 3D spatial tokens into the action head. FALCON leverages spatial
foundation models to deliver strong geometric priors from RGB alone, and
includes an Embodied Spatial Model that can optionally fuse depth, or pose for
higher fidelity when available, without retraining or architectural changes. To
preserve language reasoning, spatial tokens are consumed by a Spatial-Enhanced
Action Head rather than being concatenated into the vision-language backbone.
These designs enable FALCON to address limitations in spatial representation,
modality transferability, and alignment. In comprehensive evaluations across
three simulation benchmarks and eleven real-world tasks, our proposed FALCON
achieves state-of-the-art performance, consistently surpasses competitive
baselines, and remains robust under clutter, spatial-prompt conditioning, and
variations in object scale and height.