BridgeVLA: Eingabe-Ausgabe-Ausrichtung für effizientes 3D-Manipulationslernen mit Vision-Sprache-Modellen
BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
June 9, 2025
Autoren: Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
cs.AI
Zusammenfassung
Kürzlich hat sich die Nutzung vortrainierter Vision-Sprache-Modelle (VLMs) zur Entwicklung von Vision-Sprache-Aktion-Modellen (VLA) als vielversprechender Ansatz für effektives Robotermanipulationslernen herausgestellt. Allerdings integrieren nur wenige Methoden 3D-Signale in VLMs für die Aktionsvorhersage, und sie nutzen die räumliche Struktur, die in 3D-Daten inhärent ist, nicht vollständig aus, was zu einer geringen Probeneffizienz führt. In diesem Artikel stellen wir BridgeVLA vor, ein neuartiges 3D-VLA-Modell, das (1) 3D-Eingaben in mehrere 2D-Bilder projiziert, um die Eingabeausrichtung mit dem VLM-Backbone sicherzustellen, und (2) 2D-Heatmaps für die Aktionsvorhersage verwendet, wodurch der Eingabe- und Ausgaberaum in einem konsistenten 2D-Bildraum vereinheitlicht wird. Zusätzlich schlagen wir eine skalierbare Vortrainingsmethode vor, die den VLM-Backbone mit der Fähigkeit ausstattet, 2D-Heatmaps vor der nachgelagerten Policy-Lernphase vorherzusagen. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode in der Lage ist, 3D-Manipulation effizient und effektiv zu erlernen. BridgeVLA übertrifft state-of-the-art Baseline-Methoden in drei Simulations-Benchmarks. In RLBench verbessert es die durchschnittliche Erfolgsrate von 81,4 % auf 88,2 %. In COLOSSEUM zeigt es eine deutlich bessere Leistung in anspruchsvollen Generalisierungsszenarien und steigert die durchschnittliche Erfolgsrate von 56,7 % auf 64,0 %. In GemBench übertrifft es alle verglichenen Baseline-Methoden in Bezug auf die durchschnittliche Erfolgsrate. In Real-Roboter-Experimenten übertrifft BridgeVLA eine state-of-the-art Baseline-Methode im Durchschnitt um 32 %. Es generalisiert robust in mehreren Out-of-Distribution-Szenarien, einschließlich visueller Störungen und unbekannter Anweisungen. Bemerkenswerterweise erreicht es eine Erfolgsrate von 96,8 % bei über 10 Aufgaben mit nur 3 Trajektorien pro Aufgabe, was seine außergewöhnliche Probeneffizienz unterstreicht. Projekt-Website: https://bridgevla.github.io/
English
Recently, leveraging pre-trained vision-language models (VLMs) for building
vision-language-action (VLA) models has emerged as a promising approach to
effective robot manipulation learning. However, only few methods incorporate 3D
signals into VLMs for action prediction, and they do not fully leverage the
spatial structure inherent in 3D data, leading to low sample efficiency. In
this paper, we introduce BridgeVLA, a novel 3D VLA model that (1) projects 3D
inputs to multiple 2D images, ensuring input alignment with the VLM backbone,
and (2) utilizes 2D heatmaps for action prediction, unifying the input and
output spaces within a consistent 2D image space. In addition, we propose a
scalable pre-training method that equips the VLM backbone with the capability
to predict 2D heatmaps before downstream policy learning. Extensive experiments
show the proposed method is able to learn 3D manipulation efficiently and
effectively. BridgeVLA outperforms state-of-the-art baseline methods across
three simulation benchmarks. In RLBench, it improves the average success rate
from 81.4% to 88.2%. In COLOSSEUM, it demonstrates significantly better
performance in challenging generalization settings, boosting the average
success rate from 56.7% to 64.0%. In GemBench, it surpasses all the comparing
baseline methods in terms of average success rate. In real-robot experiments,
BridgeVLA outperforms a state-of-the-art baseline method by 32% on average. It
generalizes robustly in multiple out-of-distribution settings, including visual
disturbances and unseen instructions. Remarkably, it is able to achieve a
success rate of 96.8% on 10+ tasks with only 3 trajectories per task,
highlighting its extraordinary sample efficiency. Project
Website:https://bridgevla.github.io/