ChatPaper.aiChatPaper

Räumlich bewusstes VLA-Pretraining durch visuell-physikalische Ausrichtung aus menschlichen Videos

Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

December 15, 2025
papers.authors: Yicheng Feng, Wanpeng Zhang, Ye Wang, Hao Luo, Haoqi Yuan, Sipeng Zheng, Zongqing Lu
cs.AI

papers.abstract

Vision-Language-Action (VLA)-Modelle bieten ein vielversprechendes Paradigma für das Robotik-Lernen, indem sie visuelle Wahrnehmung mit sprachgesteuertem Policy-Lernen verbinden. Die meisten bestehenden Ansätze stützen sich jedoch auf 2D-Visuelleingaben, um Aktionen in 3D-Physikumgebungen auszuführen, was eine erhebliche Lücke zwischen Wahrnehmung und Aktionsverankerung schafft. Um diese Lücke zu schließen, schlagen wir ein räumlich bewusstes VLA-Vortrainingsparadigma vor, das während des Vortrainings eine explizite Ausrichtung zwischen visuellem Raum und physikalischem Raum vornimmt. Dies ermöglicht es Modellen, ein 3D-Raumverständnis zu erwerben, bevor das Robotik-Policy-Lernen beginnt. Ausgehend von vortrainierten Vision-Language-Modellen nutzen wir groß angelegte menschliche Demonstrationsvideos, um 3D-Visual- und 3D-Aktionsannotationen zu extrahieren. Diese bilden eine neue Aufsichtsquelle, die 2D-Visualbeobachtungen mit 3D-räumlicher Schlussfolgerung in Einklang bringt. Wir instanziieren dieses Paradigma mit VIPA-VLA, einer Dual-Encoder-Architektur, die einen 3D-Visualencoder integriert, um semantische Visuadarstellungen mit 3D-bewussten Merkmalen anzureichern. Bei der Anpassung an nachgelagerte Robotikaufgaben erreicht VIPA-VLA eine signifikant verbesserte Verankerung zwischen 2D-Vision und 3D-Aktion, was zu robusteren und generalisierbareren Robotik-Policies führt.
English
Vision-Language-Action (VLA) models provide a promising paradigm for robot learning by integrating visual perception with language-guided policy learning. However, most existing approaches rely on 2D visual inputs to perform actions in 3D physical environments, creating a significant gap between perception and action grounding. To bridge this gap, we propose a Spatial-Aware VLA Pretraining paradigm that performs explicit alignment between visual space and physical space during pretraining, enabling models to acquire 3D spatial understanding before robot policy learning. Starting from pretrained vision-language models, we leverage large-scale human demonstration videos to extract 3D visual and 3D action annotations, forming a new source of supervision that aligns 2D visual observations with 3D spatial reasoning. We instantiate this paradigm with VIPA-VLA, a dual-encoder architecture that incorporates a 3D visual encoder to augment semantic visual representations with 3D-aware features. When adapted to downstream robot tasks, VIPA-VLA achieves significantly improved grounding between 2D vision and 3D action, resulting in more robust and generalizable robotic policies.
PDF132December 17, 2025