ChatPaper.aiChatPaper

BridgeVLA: Allineamento Input-Output per un Apprendimento Efficiente della Manipolazione 3D con Modelli Visione-Linguaggio

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

June 9, 2025
Autori: Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
cs.AI

Abstract

Recentemente, l'utilizzo di modelli pre-addestrati visione-linguaggio (VLMs) per costruire modelli visione-linguaggio-azione (VLA) è emerso come un approccio promettente per un apprendimento efficace della manipolazione robotica. Tuttavia, solo pochi metodi incorporano segnali 3D nei VLMs per la previsione delle azioni, e non sfruttano appieno la struttura spaziale intrinseca dei dati 3D, portando a una bassa efficienza campionaria. In questo articolo, introduciamo BridgeVLA, un nuovo modello VLA 3D che (1) proietta gli input 3D in multiple immagini 2D, garantendo l'allineamento degli input con il backbone VLM, e (2) utilizza mappe di calore 2D per la previsione delle azioni, unificando gli spazi di input e output all'interno di uno spazio immagine 2D coerente. Inoltre, proponiamo un metodo di pre-addestramento scalabile che equipaggia il backbone VLM con la capacità di prevedere mappe di calore 2D prima dell'apprendimento della politica downstream. Esperimenti estensivi dimostrano che il metodo proposto è in grado di apprendere la manipolazione 3D in modo efficiente ed efficace. BridgeVLA supera i metodi baseline all'avanguardia in tre benchmark di simulazione. In RLBench, migliora il tasso di successo medio dall'81,4% all'88,2%. In COLOSSEUM, dimostra prestazioni significativamente migliori in contesti di generalizzazione impegnativi, aumentando il tasso di successo medio dal 56,7% al 64,0%. In GemBench, supera tutti i metodi baseline di confronto in termini di tasso di successo medio. Negli esperimenti con robot reali, BridgeVLA supera un metodo baseline all'avanguardia del 32% in media. Generalizza robustamente in molteplici contesti out-of-distribution, inclusi disturbi visivi e istruzioni non viste. Notevolmente, è in grado di raggiungere un tasso di successo del 96,8% su più di 10 task con solo 3 traiettorie per task, evidenziando la sua straordinaria efficienza campionaria. Sito del progetto: https://bridgevla.github.io/
English
Recently, leveraging pre-trained vision-language models (VLMs) for building vision-language-action (VLA) models has emerged as a promising approach to effective robot manipulation learning. However, only few methods incorporate 3D signals into VLMs for action prediction, and they do not fully leverage the spatial structure inherent in 3D data, leading to low sample efficiency. In this paper, we introduce BridgeVLA, a novel 3D VLA model that (1) projects 3D inputs to multiple 2D images, ensuring input alignment with the VLM backbone, and (2) utilizes 2D heatmaps for action prediction, unifying the input and output spaces within a consistent 2D image space. In addition, we propose a scalable pre-training method that equips the VLM backbone with the capability to predict 2D heatmaps before downstream policy learning. Extensive experiments show the proposed method is able to learn 3D manipulation efficiently and effectively. BridgeVLA outperforms state-of-the-art baseline methods across three simulation benchmarks. In RLBench, it improves the average success rate from 81.4% to 88.2%. In COLOSSEUM, it demonstrates significantly better performance in challenging generalization settings, boosting the average success rate from 56.7% to 64.0%. In GemBench, it surpasses all the comparing baseline methods in terms of average success rate. In real-robot experiments, BridgeVLA outperforms a state-of-the-art baseline method by 32% on average. It generalizes robustly in multiple out-of-distribution settings, including visual disturbances and unseen instructions. Remarkably, it is able to achieve a success rate of 96.8% on 10+ tasks with only 3 trajectories per task, highlighting its extraordinary sample efficiency. Project Website:https://bridgevla.github.io/
PDF122June 17, 2025