BridgeVLA: Согласование входных и выходных данных для эффективного обучения манипуляциям в 3D с использованием моделей "визуальный язык"
BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
June 9, 2025
Авторы: Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan
cs.AI
Аннотация
В последнее время использование предварительно обученных моделей для обработки визуальных и текстовых данных (VLMs) для создания моделей, объединяющих зрение, язык и действия (VLA), стало перспективным подходом к эффективному обучению манипуляциям роботов. Однако лишь немногие методы включают 3D-сигналы в VLMs для прогнозирования действий, и они не полностью используют пространственную структуру, присущую 3D-данным, что приводит к низкой эффективности использования данных. В данной статье мы представляем BridgeVLA, новую 3D VLA модель, которая (1) проецирует 3D-входные данные на несколько 2D-изображений, обеспечивая согласованность входных данных с архитектурой VLM, и (2) использует 2D-тепловые карты для прогнозирования действий, объединяя входное и выходное пространства в единое 2D-изображение. Кроме того, мы предлагаем масштабируемый метод предварительного обучения, который наделяет архитектуру VLM способностью прогнозировать 2D-тепловые карты до обучения политики на конечных задачах. Эксперименты показывают, что предложенный метод способен эффективно и результативно обучаться 3D-манипуляциям. BridgeVLA превосходит современные базовые методы на трех симуляционных тестах. В RLBench она повышает средний показатель успешности с 81,4% до 88,2%. В COLOSSEUM она демонстрирует значительно лучшую производительность в сложных условиях обобщения, увеличивая средний показатель успешности с 56,7% до 64,0%. В GemBench она превосходит все сравниваемые базовые методы по среднему показателю успешности. В экспериментах с реальными роботами BridgeVLA превосходит современный базовый метод в среднем на 32%. Она устойчиво обобщает в различных условиях, выходящих за пределы обучающего распределения, включая визуальные помехи и неизвестные инструкции. Примечательно, что она способна достичь показателя успешности 96,8% на более чем 10 задачах, используя всего 3 траектории на задачу, что подчеркивает её исключительную эффективность использования данных. Сайт проекта: https://bridgevla.github.io/
English
Recently, leveraging pre-trained vision-language models (VLMs) for building
vision-language-action (VLA) models has emerged as a promising approach to
effective robot manipulation learning. However, only few methods incorporate 3D
signals into VLMs for action prediction, and they do not fully leverage the
spatial structure inherent in 3D data, leading to low sample efficiency. In
this paper, we introduce BridgeVLA, a novel 3D VLA model that (1) projects 3D
inputs to multiple 2D images, ensuring input alignment with the VLM backbone,
and (2) utilizes 2D heatmaps for action prediction, unifying the input and
output spaces within a consistent 2D image space. In addition, we propose a
scalable pre-training method that equips the VLM backbone with the capability
to predict 2D heatmaps before downstream policy learning. Extensive experiments
show the proposed method is able to learn 3D manipulation efficiently and
effectively. BridgeVLA outperforms state-of-the-art baseline methods across
three simulation benchmarks. In RLBench, it improves the average success rate
from 81.4% to 88.2%. In COLOSSEUM, it demonstrates significantly better
performance in challenging generalization settings, boosting the average
success rate from 56.7% to 64.0%. In GemBench, it surpasses all the comparing
baseline methods in terms of average success rate. In real-robot experiments,
BridgeVLA outperforms a state-of-the-art baseline method by 32% on average. It
generalizes robustly in multiple out-of-distribution settings, including visual
disturbances and unseen instructions. Remarkably, it is able to achieve a
success rate of 96.8% on 10+ tasks with only 3 trajectories per task,
highlighting its extraordinary sample efficiency. Project
Website:https://bridgevla.github.io/