Pretraining de VLA con Conciencia Espacial mediante Alineación Visual-Física a partir de Vídeos Humanos
Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos
December 15, 2025
Autores: Yicheng Feng, Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Sipeng Zheng, Zongqing Lu
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) ofrecen un paradigma prometedor para el aprendizaje robótico al integrar la percepción visual con el aprendizaje de políticas guiado por lenguaje. Sin embargo, la mayoría de los enfoques existentes dependen de entradas visuales 2D para realizar acciones en entornos físicos 3D, creando una brecha significativa entre la percepción y la fundamentación de la acción. Para cerrar esta brecha, proponemos un paradigma de Preentrenamiento VLA con Conciencia Espacial que realiza una alineación explícita entre el espacio visual y el espacio físico durante el preentrenamiento, permitiendo a los modelos adquirir comprensión espacial 3D antes del aprendizaje de políticas robóticas. Partiendo de modelos de visión y lenguaje preentrenados, aprovechamos videos a gran escala de demostraciones humanas para extraer anotaciones visuales 3D y de acciones 3D, formando una nueva fuente de supervisión que alinea las observaciones visuales 2D con el razonamiento espacial 3D. Instanciamos este paradigma con VIPA-VLA, una arquitectura de doble codificador que incorpora un codificador visual 3D para aumentar las representaciones visuales semánticas con características conscientes de la 3D. Al adaptarse a tareas robóticas posteriores, VIPA-VLA logra una fundamentación significativamente mejorada entre la visión 2D y la acción 3D, resultando en políticas robóticas más robustas y generalizables.
English
Vision-Language-Action (VLA) models provide a promising paradigm for robot learning by integrating visual perception with language-guided policy learning. However, most existing approaches rely on 2D visual inputs to perform actions in 3D physical environments, creating a significant gap between perception and action grounding. To bridge this gap, we propose a Spatial-Aware VLA Pretraining paradigm that performs explicit alignment between visual space and physical space during pretraining, enabling models to acquire 3D spatial understanding before robot policy learning. Starting from pretrained vision-language models, we leverage large-scale human demonstration videos to extract 3D visual and 3D action annotations, forming a new source of supervision that aligns 2D visual observations with 3D spatial reasoning. We instantiate this paradigm with VIPA-VLA, a dual-encoder architecture that incorporates a 3D visual encoder to augment semantic visual representations with 3D-aware features. When adapted to downstream robot tasks, VIPA-VLA achieves significantly improved grounding between 2D vision and 3D action, resulting in more robust and generalizable robotic policies.