ChatPaper.aiChatPaper

人間の動画からの視覚的物理的整合性を考慮した空間認識VLA事前学習

Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

December 15, 2025
著者: Yicheng Feng, Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Sipeng Zheng, Zongqing Lu
cs.AI

要旨

視覚言語行動(VLA)モデルは、視覚知覚と言語誘導方策学習を統合することで、ロボット学習に有望なパラダイムを提供する。しかし、既存手法の多くは3次元物理環境で動作を実行する際に2次元視覚入力を利用するため、知覚と行動の接地(grounding)間に大きな隔たりが生じている。この隔たりを埋めるため、我々は事前学習段階で視覚空間と物理空間の明示的な整合を図る「空間認識VLA事前学習」パラダイムを提案する。これにより、ロボット方策学習前にモデルが3次元空間理解を獲得できるようになる。事前学習済み視覚言語モデルを出発点とし、大規模な人間実演動画から3次元視覚注釈と3次元行動注釈を抽出することで、2次元視覚観測と3次元空間推論を整合させる新たな教師信号を構築する。このパラダイムを具体化したVIPA-VLAは、3次元視覚エンコーダを組み込んだ二重エンコーダ構造であり、意味的視覚表現を3次元認識特徴で拡張する。下流ロボットタスクに適用した場合、VIPA-VLAは2次元視覚と3次元行動の接地性を大幅に改善し、より頑健で汎化性の高いロボット方策を実現する。
English
Vision-Language-Action (VLA) models provide a promising paradigm for robot learning by integrating visual perception with language-guided policy learning. However, most existing approaches rely on 2D visual inputs to perform actions in 3D physical environments, creating a significant gap between perception and action grounding. To bridge this gap, we propose a Spatial-Aware VLA Pretraining paradigm that performs explicit alignment between visual space and physical space during pretraining, enabling models to acquire 3D spatial understanding before robot policy learning. Starting from pretrained vision-language models, we leverage large-scale human demonstration videos to extract 3D visual and 3D action annotations, forming a new source of supervision that aligns 2D visual observations with 3D spatial reasoning. We instantiate this paradigm with VIPA-VLA, a dual-encoder architecture that incorporates a 3D visual encoder to augment semantic visual representations with 3D-aware features. When adapted to downstream robot tasks, VIPA-VLA achieves significantly improved grounding between 2D vision and 3D action, resulting in more robust and generalizable robotic policies.
PDF132December 17, 2025