От пространственного восприятия к действиям: обоснование модели "зрение-язык-действие" на пространственных фундаментальных априорных знаниях

Аннотация

Существующие модели "зрение-язык-действие" (VLA) функционируют в трёхмерном реальном мире, но обычно строятся на основе двумерных энкодеров, что создаёт пробел в пространственном мышлении, ограничивающий обобщающую способность и адаптивность. Современные методы интеграции 3D в VLA либо требуют специализированных сенсоров и плохо переносятся между модальностями, либо добавляют слабые сигналы, лишённые геометрии, что ухудшает согласованность между зрением и языком. В данной работе мы представляем FALCON (From Spatial to Action) — новую парадигму, которая внедряет богатые 3D пространственные токены в голову действия. FALCON использует пространственные фундаментальные модели для получения строгих геометрических априорных данных только из RGB-изображений и включает Модель Воплощённого Пространства, которая может при необходимости объединять данные о глубине или позе для повышения точности, если они доступны, без необходимости переобучения или изменений архитектуры. Чтобы сохранить языковое мышление, пространственные токены обрабатываются Пространственно-Усиленной Головой Действия, а не конкатенируются в основу "зрение-язык". Такая конструкция позволяет FALCON преодолеть ограничения в пространственном представлении, переносимости между модальностями и согласованности. В ходе всесторонних оценок на трёх симуляционных бенчмарках и одиннадцати реальных задачах предложенный метод FALCON демонстрирует наилучшую производительность, стабильно превосходит конкурентоспособные базовые методы и сохраняет устойчивость в условиях загромождения, пространственно-условных промптов, а также вариаций масштаба и высоты объектов.

English

Existing vision-language-action (VLA) models act in 3D real-world but are typically built on 2D encoders, leaving a spatial reasoning gap that limits generalization and adaptability. Recent 3D integration techniques for VLAs either require specialized sensors and transfer poorly across modalities, or inject weak cues that lack geometry and degrade vision-language alignment. In this work, we introduce FALCON (From Spatial to Action), a novel paradigm that injects rich 3D spatial tokens into the action head. FALCON leverages spatial foundation models to deliver strong geometric priors from RGB alone, and includes an Embodied Spatial Model that can optionally fuse depth, or pose for higher fidelity when available, without retraining or architectural changes. To preserve language reasoning, spatial tokens are consumed by a Spatial-Enhanced Action Head rather than being concatenated into the vision-language backbone. These designs enable FALCON to address limitations in spatial representation, modality transferability, and alignment. In comprehensive evaluations across three simulation benchmarks and eleven real-world tasks, our proposed FALCON achieves state-of-the-art performance, consistently surpasses competitive baselines, and remains robust under clutter, spatial-prompt conditioning, and variations in object scale and height.

От пространственного восприятия к действиям: обоснование модели "зрение-язык-действие" на пространственных фундаментальных априорных знаниях

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Аннотация

Support