BridgeVLA: Input-Output Afstemming voor Efficiënt 3D Manipulatie Leren met Vision-Taalmodellen
BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
June 9, 2025
Auteurs: Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
cs.AI
Samenvatting
Onlangs is het gebruik van vooraf getrainde visie-taalmodellen (VLMs) voor het bouwen van visie-taal-actiemodellen (VLA) naar voren gekomen als een veelbelovende aanpak voor effectief robotmanipulatie leren. Echter, slechts enkele methoden integreren 3D-signalen in VLMs voor actievoorspelling, en ze benutten niet volledig de ruimtelijke structuur die inherent is aan 3D-data, wat leidt tot een lage steekproefefficiëntie. In dit artikel introduceren we BridgeVLA, een nieuw 3D VLA-model dat (1) 3D-invoer projecteert naar meerdere 2D-afbeeldingen, waardoor de invoer wordt afgestemd op de VLM-backbone, en (2) 2D-warmtekaarten gebruikt voor actievoorspelling, waardoor de invoer- en uitvoerruimten worden verenigd binnen een consistent 2D-beeldruimte. Daarnaast stellen we een schaalbare voorafgaande trainingsmethode voor die de VLM-backbone uitrust met de mogelijkheid om 2D-warmtekaarten te voorspellen voordat het downstream beleidsleren begint. Uitgebreide experimenten tonen aan dat de voorgestelde methode in staat is om 3D-manipulatie efficiënt en effectief te leren. BridgeVLA overtreft state-of-the-art baseline-methoden in drie simulatiebenchmarks. In RLBench verbetert het het gemiddelde slagingspercentage van 81,4% naar 88,2%. In COLOSSEUM laat het aanzienlijk betere prestaties zien in uitdagende generalisatieomstandigheden, waarbij het gemiddelde slagingspercentage stijgt van 56,7% naar 64,0%. In GemBench overtreft het alle vergelijkende baseline-methoden wat betreft gemiddeld slagingspercentage. In echte robotexperimenten overtreft BridgeVLA een state-of-the-art baseline-methode gemiddeld met 32%. Het generaliseert robuust in meerdere out-of-distribution omstandigheden, inclusief visuele verstoringen en ongeziene instructies. Opmerkelijk is dat het in staat is om een slagingspercentage van 96,8% te behalen op 10+ taken met slechts 3 trajecten per taak, wat de buitengewone steekproefefficiëntie benadrukt. Projectwebsite: https://bridgevla.github.io/
English
Recently, leveraging pre-trained vision-language models (VLMs) for building
vision-language-action (VLA) models has emerged as a promising approach to
effective robot manipulation learning. However, only few methods incorporate 3D
signals into VLMs for action prediction, and they do not fully leverage the
spatial structure inherent in 3D data, leading to low sample efficiency. In
this paper, we introduce BridgeVLA, a novel 3D VLA model that (1) projects 3D
inputs to multiple 2D images, ensuring input alignment with the VLM backbone,
and (2) utilizes 2D heatmaps for action prediction, unifying the input and
output spaces within a consistent 2D image space. In addition, we propose a
scalable pre-training method that equips the VLM backbone with the capability
to predict 2D heatmaps before downstream policy learning. Extensive experiments
show the proposed method is able to learn 3D manipulation efficiently and
effectively. BridgeVLA outperforms state-of-the-art baseline methods across
three simulation benchmarks. In RLBench, it improves the average success rate
from 81.4% to 88.2%. In COLOSSEUM, it demonstrates significantly better
performance in challenging generalization settings, boosting the average
success rate from 56.7% to 64.0%. In GemBench, it surpasses all the comparing
baseline methods in terms of average success rate. In real-robot experiments,
BridgeVLA outperforms a state-of-the-art baseline method by 32% on average. It
generalizes robustly in multiple out-of-distribution settings, including visual
disturbances and unseen instructions. Remarkably, it is able to achieve a
success rate of 96.8% on 10+ tasks with only 3 trajectories per task,
highlighting its extraordinary sample efficiency. Project
Website:https://bridgevla.github.io/