Pre-addestramento VLA con Consapevolezza Spaziale tramite Allineamento Visivo-Fisico da Video Umani
Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos
December 15, 2025
Autori: Yicheng Feng, Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Sipeng Zheng, Zongqing Lu
cs.AI
Abstract
I modelli Vision-Language-Action (VLA) forniscono un paradigma promettente per l'apprendimento robotico integrando la percezione visiva con l'apprendimento di politiche guidato dal linguaggio. Tuttavia, la maggior parte degli approcci esistenti si basa su input visivi 2D per eseguire azioni in ambienti fisici 3D, creando un divario significativo tra la percezione e il grounding delle azioni. Per colmare questa lacuna, proponiamo un paradigma di Pre-addestramento VLA con Consapevolezza Spaziale che esegue un allineamento esplicito tra spazio visivo e spazio fisico durante il pre-addestramento, consentendo ai modelli di acquisire una comprensione spaziale 3D prima dell'apprendimento delle politiche robotiche. Partendo da modelli vision-linguaggio pre-addestrati, sfruttiamo video su larga scala di dimostrazioni umane per estrarre annotazioni visive 3D e di azioni 3D, formando una nuova fonte di supervisione che allinea le osservazioni visive 2D con il ragionamento spaziale 3D. Istanziamo questo paradigma con VIPA-VLA, un'architettura a doppio encoder che incorpora un encoder visivo 3D per arricchire le rappresentazioni visive semantiche con caratteristiche consapevoli della terza dimensione. Quando adattato a compiti robotici downstream, VIPA-VLA raggiunge un miglioramento significativo nel grounding tra visione 2D e azione 3D, risultando in politiche robotiche più robuste e generalizzabili.
English
Vision-Language-Action (VLA) models provide a promising paradigm for robot learning by integrating visual perception with language-guided policy learning. However, most existing approaches rely on 2D visual inputs to perform actions in 3D physical environments, creating a significant gap between perception and action grounding. To bridge this gap, we propose a Spatial-Aware VLA Pretraining paradigm that performs explicit alignment between visual space and physical space during pretraining, enabling models to acquire 3D spatial understanding before robot policy learning. Starting from pretrained vision-language models, we leverage large-scale human demonstration videos to extract 3D visual and 3D action annotations, forming a new source of supervision that aligns 2D visual observations with 3D spatial reasoning. We instantiate this paradigm with VIPA-VLA, a dual-encoder architecture that incorporates a 3D visual encoder to augment semantic visual representations with 3D-aware features. When adapted to downstream robot tasks, VIPA-VLA achieves significantly improved grounding between 2D vision and 3D action, resulting in more robust and generalizable robotic policies.