ChatPaper.aiChatPaper

BridgeVLA: Alineación Entrada-Salida para un Aprendizaje Eficiente de Manipulación 3D con Modelos de Visión-Lenguaje

BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models

June 9, 2025
Autores: Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
cs.AI

Resumen

Recientemente, el uso de modelos preentrenados de visión-lenguaje (VLMs) para construir modelos de visión-lenguaje-acción (VLA) ha surgido como un enfoque prometedor para el aprendizaje efectivo de la manipulación robótica. Sin embargo, pocos métodos incorporan señales 3D en los VLMs para la predicción de acciones, y no aprovechan completamente la estructura espacial inherente a los datos 3D, lo que resulta en una baja eficiencia de muestreo. En este artículo, presentamos BridgeVLA, un novedoso modelo VLA 3D que (1) proyecta entradas 3D en múltiples imágenes 2D, asegurando la alineación de la entrada con la arquitectura base del VLM, y (2) utiliza mapas de calor 2D para la predicción de acciones, unificando los espacios de entrada y salida dentro de un espacio de imagen 2D consistente. Además, proponemos un método de preentrenamiento escalable que equipa a la arquitectura base del VLM con la capacidad de predecir mapas de calor 2D antes del aprendizaje de políticas en tareas específicas. Experimentos extensos muestran que el método propuesto es capaz de aprender la manipulación 3D de manera eficiente y efectiva. BridgeVLA supera a los métodos de referencia más avanzados en tres benchmarks de simulación. En RLBench, mejora la tasa de éxito promedio del 81.4% al 88.2%. En COLOSSEUM, demuestra un rendimiento significativamente mejor en escenarios desafiantes de generalización, aumentando la tasa de éxito promedio del 56.7% al 64.0%. En GemBench, supera a todos los métodos de referencia en términos de tasa de éxito promedio. En experimentos con robots reales, BridgeVLA supera a un método de referencia de última generación en un 32% en promedio. Generaliza de manera robusta en múltiples escenarios fuera de distribución, incluyendo perturbaciones visuales e instrucciones no vistas. Notablemente, logra una tasa de éxito del 96.8% en más de 10 tareas con solo 3 trayectorias por tarea, destacando su extraordinaria eficiencia de muestreo. Sitio web del proyecto: https://bridgevla.github.io/
English
Recently, leveraging pre-trained vision-language models (VLMs) for building vision-language-action (VLA) models has emerged as a promising approach to effective robot manipulation learning. However, only few methods incorporate 3D signals into VLMs for action prediction, and they do not fully leverage the spatial structure inherent in 3D data, leading to low sample efficiency. In this paper, we introduce BridgeVLA, a novel 3D VLA model that (1) projects 3D inputs to multiple 2D images, ensuring input alignment with the VLM backbone, and (2) utilizes 2D heatmaps for action prediction, unifying the input and output spaces within a consistent 2D image space. In addition, we propose a scalable pre-training method that equips the VLM backbone with the capability to predict 2D heatmaps before downstream policy learning. Extensive experiments show the proposed method is able to learn 3D manipulation efficiently and effectively. BridgeVLA outperforms state-of-the-art baseline methods across three simulation benchmarks. In RLBench, it improves the average success rate from 81.4% to 88.2%. In COLOSSEUM, it demonstrates significantly better performance in challenging generalization settings, boosting the average success rate from 56.7% to 64.0%. In GemBench, it surpasses all the comparing baseline methods in terms of average success rate. In real-robot experiments, BridgeVLA outperforms a state-of-the-art baseline method by 32% on average. It generalizes robustly in multiple out-of-distribution settings, including visual disturbances and unseen instructions. Remarkably, it is able to achieve a success rate of 96.8% on 10+ tasks with only 3 trajectories per task, highlighting its extraordinary sample efficiency. Project Website:https://bridgevla.github.io/
PDF102June 17, 2025