ChatPaper.aiChatPaper

BridgeVLA : Alignement entrée-sortie pour un apprentissage efficace de la manipulation 3D avec des modèles vision-langage

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

June 9, 2025
Auteurs: Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
cs.AI

Résumé

Récemment, l'utilisation de modèles vision-langage pré-entraînés (VLMs) pour construire des modèles vision-langage-action (VLA) s'est imposée comme une approche prometteuse pour l'apprentissage efficace de la manipulation robotique. Cependant, peu de méthodes intègrent des signaux 3D dans les VLMs pour la prédiction d'actions, et elles n'exploitent pas pleinement la structure spatiale inhérente aux données 3D, ce qui entraîne une faible efficacité d'échantillonnage. Dans cet article, nous présentons BridgeVLA, un nouveau modèle VLA 3D qui (1) projette les entrées 3D en plusieurs images 2D, assurant ainsi un alignement des entrées avec l'architecture du VLM, et (2) utilise des cartes de chaleur 2D pour la prédiction d'actions, unifiant les espaces d'entrée et de sortie dans un espace d'images 2D cohérent. De plus, nous proposons une méthode d'entraînement préalable scalable qui dote l'architecture du VLM de la capacité à prédire des cartes de chaleur 2D avant l'apprentissage des politiques en aval. Des expériences approfondies montrent que la méthode proposée permet d'apprendre la manipulation 3D de manière efficace et efficiente. BridgeVLA surpasse les méthodes de référence de pointe sur trois benchmarks de simulation. Dans RLBench, il améliore le taux de réussite moyen de 81,4 % à 88,2 %. Dans COLOSSEUM, il démontre une performance nettement meilleure dans des scénarios de généralisation difficiles, augmentant le taux de réussite moyen de 56,7 % à 64,0 %. Dans GemBench, il dépasse toutes les méthodes de référence en termes de taux de réussite moyen. Dans des expériences sur robots réels, BridgeVLA surpasse une méthode de référence de pointe de 32 % en moyenne. Il généralise de manière robuste dans plusieurs scénarios hors distribution, incluant des perturbations visuelles et des instructions inédites. Remarquablement, il parvient à atteindre un taux de réussite de 96,8 % sur plus de 10 tâches avec seulement 3 trajectoires par tâche, mettant en évidence son extraordinaire efficacité d'échantillonnage. Site du projet : https://bridgevla.github.io/
English
Recently, leveraging pre-trained vision-language models (VLMs) for building vision-language-action (VLA) models has emerged as a promising approach to effective robot manipulation learning. However, only few methods incorporate 3D signals into VLMs for action prediction, and they do not fully leverage the spatial structure inherent in 3D data, leading to low sample efficiency. In this paper, we introduce BridgeVLA, a novel 3D VLA model that (1) projects 3D inputs to multiple 2D images, ensuring input alignment with the VLM backbone, and (2) utilizes 2D heatmaps for action prediction, unifying the input and output spaces within a consistent 2D image space. In addition, we propose a scalable pre-training method that equips the VLM backbone with the capability to predict 2D heatmaps before downstream policy learning. Extensive experiments show the proposed method is able to learn 3D manipulation efficiently and effectively. BridgeVLA outperforms state-of-the-art baseline methods across three simulation benchmarks. In RLBench, it improves the average success rate from 81.4% to 88.2%. In COLOSSEUM, it demonstrates significantly better performance in challenging generalization settings, boosting the average success rate from 56.7% to 64.0%. In GemBench, it surpasses all the comparing baseline methods in terms of average success rate. In real-robot experiments, BridgeVLA outperforms a state-of-the-art baseline method by 32% on average. It generalizes robustly in multiple out-of-distribution settings, including visual disturbances and unseen instructions. Remarkably, it is able to achieve a success rate of 96.8% on 10+ tasks with only 3 trajectories per task, highlighting its extraordinary sample efficiency. Project Website:https://bridgevla.github.io/
PDF102June 17, 2025