ChatPaper.aiChatPaper

Пространственно-осознанное предварительное обучение VLA через визуально-физическое выравнивание на основе видео с участием человека

Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

December 15, 2025
Авторы: Yicheng Feng, Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Sipeng Zheng, Zongqing Lu
cs.AI

Аннотация

Модели "Vision-Language-Action" (VLA) предлагают перспективную парадигму для обучения роботов, интегрируя визуальное восприятие с обучением стратегий на основе языковых команд. Однако большинство существующих подходов полагаются на 2D-визуальные входные данные для выполнения действий в 3D-физических средах, что создает значительный разрыв между восприятием и привязкой действий. Чтобы устранить этот разрыв, мы предлагаем парадигму предварительного обучения VLA с пространственной осведомленностью, которая выполняет явное выравнивание между визуальным и физическим пространством на этапе предварительного обучения, позволяя моделям приобретать понимание 3D-пространства до обучения роботизированным стратегиям. Исходя из предобученных моделей "vision-language", мы используем масштабные видео с демонстрациями человека для извлечения 3D-визуальных и 3D-действенных аннотаций, формируя новый источник контроля, который согласовывает 2D-визуальные наблюдения с 3D-пространственными рассуждениями. Мы реализуем эту парадигму в VIPA-VLA — архитектуре с двойным кодировщиком, которая включает 3D-визуальный кодировщик для обогащения семантических визуальных представлений признаками с учетом 3D-пространства. При адаптации к последующим задачам робототехники VIPA-VLA демонстрирует значительно улучшенную привязку между 2D-зрением и 3D-действиями, что приводит к более надежным и обобщаемым роботизированным стратегиям.
English
Vision-Language-Action (VLA) models provide a promising paradigm for robot learning by integrating visual perception with language-guided policy learning. However, most existing approaches rely on 2D visual inputs to perform actions in 3D physical environments, creating a significant gap between perception and action grounding. To bridge this gap, we propose a Spatial-Aware VLA Pretraining paradigm that performs explicit alignment between visual space and physical space during pretraining, enabling models to acquire 3D spatial understanding before robot policy learning. Starting from pretrained vision-language models, we leverage large-scale human demonstration videos to extract 3D visual and 3D action annotations, forming a new source of supervision that aligns 2D visual observations with 3D spatial reasoning. We instantiate this paradigm with VIPA-VLA, a dual-encoder architecture that incorporates a 3D visual encoder to augment semantic visual representations with 3D-aware features. When adapted to downstream robot tasks, VIPA-VLA achieves significantly improved grounding between 2D vision and 3D action, resulting in more robust and generalizable robotic policies.
PDF132December 17, 2025