Pré-treinamento VLA com Consciência Espacial através do Alinhamento Visual-Físico em Vídeos Humanos

Resumo

Os modelos Visão-Linguagem-Ação (VLA) oferecem um paradigma promissor para a aprendizagem robótica ao integrar a perceção visual com a aprendizagem de políticas orientada por linguagem. No entanto, a maioria das abordagens existentes depende de entradas visuais 2D para executar ações em ambientes físicos 3D, criando uma lacuna significativa entre a perceção e a fundamentação da ação. Para colmatar esta lacuna, propomos um paradigma de Pré-treinamento VLA com Consciência Espacial que realiza um alinhamento explícito entre o espaço visual e o espaço físico durante o pré-treinamento, permitindo que os modelos adquiram compreensão espacial 3D antes da aprendizagem de políticas robóticas. Partindo de modelos de visão e linguagem pré-treinados, aproveitamos vídeos de demonstração humana em larga escala para extrair anotações visuais 3D e de ação 3D, formando uma nova fonte de supervisão que alinha observações visuais 2D com o raciocínio espacial 3D. Instanciamos este paradigma com o VIPA-VLA, uma arquitetura de duplo codificador que incorpora um codificador visual 3D para aumentar as representações visuais semânticas com características conscientes da 3D. Quando adaptado a tarefas robóticas subsequentes, o VIPA-VLA alcança uma fundamentação significativamente melhorada entre a visão 2D e a ação 3D, resultando em políticas robóticas mais robustas e generalizáveis.

English

Vision-Language-Action (VLA) models provide a promising paradigm for robot learning by integrating visual perception with language-guided policy learning. However, most existing approaches rely on 2D visual inputs to perform actions in 3D physical environments, creating a significant gap between perception and action grounding. To bridge this gap, we propose a Spatial-Aware VLA Pretraining paradigm that performs explicit alignment between visual space and physical space during pretraining, enabling models to acquire 3D spatial understanding before robot policy learning. Starting from pretrained vision-language models, we leverage large-scale human demonstration videos to extract 3D visual and 3D action annotations, forming a new source of supervision that aligns 2D visual observations with 3D spatial reasoning. We instantiate this paradigm with VIPA-VLA, a dual-encoder architecture that incorporates a 3D visual encoder to augment semantic visual representations with 3D-aware features. When adapted to downstream robot tasks, VIPA-VLA achieves significantly improved grounding between 2D vision and 3D action, resulting in more robust and generalizable robotic policies.

Pré-treinamento VLA com Consciência Espacial através do Alinhamento Visual-Físico em Vídeos Humanos

Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

Resumo

Support