ChatPaper.aiChatPaper

인간 동영상의 시각-물리 정렬을 통한 공간 인식 VLA 사전 학습

Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

December 15, 2025
저자: Yicheng Feng, Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Sipeng Zheng, Zongqing Lu
cs.AI

초록

비전-언어-행동(VLA) 모델은 시각 인식과 언어 기반 정책 학습을 통합하여 로봇 학습에 유망한 패러다임을 제공합니다. 그러나 기존 대부분의 접근법은 3D 물리 환경에서 행동을 수행하기 위해 2D 시각 입력에 의존함으로써 인식과 행동 기반 사이에 상당한 격차를 만들어냅니다. 이러한 격차를 해소하기 위해 우리는 사전 학습 단계에서 시각 공간과 물리 공간 간의 명시적 정렬을 수행하는 공간 인식 VLA 사전 학습 패러다임을 제안합니다. 이는 로봇 정책 학습 전에 모델이 3D 공간 이해 능력을 획득할 수 있도록 합니다. 사전 학습된 비전-언어 모델을 시작점으로 대규모 인간 데모 비디오를 활용하여 3D 시각 및 3D 행동 주석을 추출함으로써 2D 시각 관측과 3D 공간 추론을 정렬하는 새로운 감독 정보 원천을 구성합니다. 우리는 이 패러다임을 VIPA-VLA로 구체화하며, 3D 인식 기능으로 의미론적 시각 표현을 강화하는 3D 시각 인코더를 통합한 이중 인코더 아키텍처입니다. 하류 로봇 작업에 적용 시 VIPA-VLA는 2D 비전과 3D 행동 간의 기반 정확도를 크게 향상시켜 더 강력하고 일반화 가능한 로봇 정책을 달성합니다.
English
Vision-Language-Action (VLA) models provide a promising paradigm for robot learning by integrating visual perception with language-guided policy learning. However, most existing approaches rely on 2D visual inputs to perform actions in 3D physical environments, creating a significant gap between perception and action grounding. To bridge this gap, we propose a Spatial-Aware VLA Pretraining paradigm that performs explicit alignment between visual space and physical space during pretraining, enabling models to acquire 3D spatial understanding before robot policy learning. Starting from pretrained vision-language models, we leverage large-scale human demonstration videos to extract 3D visual and 3D action annotations, forming a new source of supervision that aligns 2D visual observations with 3D spatial reasoning. We instantiate this paradigm with VIPA-VLA, a dual-encoder architecture that incorporates a 3D visual encoder to augment semantic visual representations with 3D-aware features. When adapted to downstream robot tasks, VIPA-VLA achieves significantly improved grounding between 2D vision and 3D action, resulting in more robust and generalizable robotic policies.
PDF132December 17, 2025