ChatPaper.aiChatPaper

BridgeVLA: Alinhamento Entrada-Saída para Aprendizado Eficiente de Manipulação 3D com Modelos Visão-Linguagem

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

June 9, 2025
Autores: Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
cs.AI

Resumo

Recentemente, a utilização de modelos pré-treinados de visão e linguagem (VLMs) para a construção de modelos de visão, linguagem e ação (VLA) surgiu como uma abordagem promissora para o aprendizado eficaz de manipulação robótica. No entanto, poucos métodos incorporam sinais 3D em VLMs para previsão de ações, e eles não aproveitam totalmente a estrutura espacial inerente aos dados 3D, resultando em baixa eficiência amostral. Neste artigo, apresentamos o BridgeVLA, um novo modelo VLA 3D que (1) projeta entradas 3D em múltiplas imagens 2D, garantindo o alinhamento da entrada com o backbone do VLM, e (2) utiliza mapas de calor 2D para previsão de ações, unificando os espaços de entrada e saída em um espaço consistente de imagens 2D. Além disso, propomos um método de pré-treinamento escalável que equipa o backbone do VLM com a capacidade de prever mapas de calor 2D antes do aprendizado da política downstream. Experimentos extensivos mostram que o método proposto é capaz de aprender manipulação 3D de forma eficiente e eficaz. O BridgeVLA supera os métodos de linha de base state-of-the-art em três benchmarks de simulação. No RLBench, ele melhora a taxa média de sucesso de 81,4% para 88,2%. No COLOSSEUM, ele demonstra um desempenho significativamente melhor em cenários desafiadores de generalização, aumentando a taxa média de sucesso de 56,7% para 64,0%. No GemBench, ele supera todos os métodos de linha de base comparados em termos de taxa média de sucesso. Em experimentos com robôs reais, o BridgeVLA supera um método de linha de base state-of-the-art em média 32%. Ele generaliza de forma robusta em múltiplos cenários fora da distribuição, incluindo distúrbios visuais e instruções não vistas. Notavelmente, ele é capaz de alcançar uma taxa de sucesso de 96,8% em mais de 10 tarefas com apenas 3 trajetórias por tarefa, destacando sua extraordinária eficiência amostral. Site do Projeto: https://bridgevla.github.io/
English
Recently, leveraging pre-trained vision-language models (VLMs) for building vision-language-action (VLA) models has emerged as a promising approach to effective robot manipulation learning. However, only few methods incorporate 3D signals into VLMs for action prediction, and they do not fully leverage the spatial structure inherent in 3D data, leading to low sample efficiency. In this paper, we introduce BridgeVLA, a novel 3D VLA model that (1) projects 3D inputs to multiple 2D images, ensuring input alignment with the VLM backbone, and (2) utilizes 2D heatmaps for action prediction, unifying the input and output spaces within a consistent 2D image space. In addition, we propose a scalable pre-training method that equips the VLM backbone with the capability to predict 2D heatmaps before downstream policy learning. Extensive experiments show the proposed method is able to learn 3D manipulation efficiently and effectively. BridgeVLA outperforms state-of-the-art baseline methods across three simulation benchmarks. In RLBench, it improves the average success rate from 81.4% to 88.2%. In COLOSSEUM, it demonstrates significantly better performance in challenging generalization settings, boosting the average success rate from 56.7% to 64.0%. In GemBench, it surpasses all the comparing baseline methods in terms of average success rate. In real-robot experiments, BridgeVLA outperforms a state-of-the-art baseline method by 32% on average. It generalizes robustly in multiple out-of-distribution settings, including visual disturbances and unseen instructions. Remarkably, it is able to achieve a success rate of 96.8% on 10+ tasks with only 3 trajectories per task, highlighting its extraordinary sample efficiency. Project Website:https://bridgevla.github.io/
PDF122June 17, 2025