Prétraitement VLA spatialement conscient par alignement visuo-physique à partir de vidéos humaines
Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos
December 15, 2025
papers.authors: Yicheng Feng, Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Sipeng Zheng, Zongqing Lu
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) offrent un paradigme prometteur pour l'apprentissage robotique en intégrant la perception visuelle avec l'apprentissage de politiques guidé par le langage. Cependant, la plupart des approches existantes s'appuient sur des entrées visuelles 2D pour exécuter des actions dans des environnements physiques 3D, créant un décalage important entre la perception et l'ancrage de l'action. Pour combler cette lacune, nous proposons un paradigme de pré-entraînement VLA Spatialement Conscient qui réalise un alignement explicite entre l'espace visuel et l'espace physique durant le pré-entraînement, permettant aux modèles d'acquérir une compréhension spatiale 3D avant l'apprentissage des politiques robotiques. En partant de modèles vision-langage pré-entraînés, nous exploitons de grandes vidéos de démonstrations humaines pour extraire des annotations visuelles 3D et des annotations d'actions 3D, formant ainsi une nouvelle source de supervision qui aligne les observations visuelles 2D avec le raisonnement spatial 3D. Nous concrétisons ce paradigme avec VIPA-VLA, une architecture à double encodeur qui intègre un encodeur visuel 3D pour enrichir les représentations visuelles sémantiques avec des caractéristiques sensibles à la 3D. Lorsqu'il est adapté à des tâches robotiques en aval, VIPA-VLA permet une bien meilleure mise en correspondance entre la vision 2D et l'action 3D, ce qui se traduit par des politiques robotiques plus robustes et généralisables.
English
Vision-Language-Action (VLA) models provide a promising paradigm for robot learning by integrating visual perception with language-guided policy learning. However, most existing approaches rely on 2D visual inputs to perform actions in 3D physical environments, creating a significant gap between perception and action grounding. To bridge this gap, we propose a Spatial-Aware VLA Pretraining paradigm that performs explicit alignment between visual space and physical space during pretraining, enabling models to acquire 3D spatial understanding before robot policy learning. Starting from pretrained vision-language models, we leverage large-scale human demonstration videos to extract 3D visual and 3D action annotations, forming a new source of supervision that aligns 2D visual observations with 3D spatial reasoning. We instantiate this paradigm with VIPA-VLA, a dual-encoder architecture that incorporates a 3D visual encoder to augment semantic visual representations with 3D-aware features. When adapted to downstream robot tasks, VIPA-VLA achieves significantly improved grounding between 2D vision and 3D action, resulting in more robust and generalizable robotic policies.