VLA-Adapter: Ein effektives Paradigma für kleinformatige Vision-Sprache-Handlungs-Modelle
VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
September 11, 2025
papers.authors: Yihao Wang, Pengxiang Ding, Lingxiao Li, Can Cui, Zirui Ge, Xinyang Tong, Wenxuan Song, Han Zhao, Wei Zhao, Pengxu Hou, Siteng Huang, Yifan Tang, Wenhui Wang, Ru Zhang, Jianyi Liu, Donglin Wang
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle überbrücken typischerweise die Lücke zwischen Wahrnehmungs- und Aktionsräumen, indem sie ein großes Vision-Language-Modell (VLM) mit Roboterdaten vortrainieren. Obwohl dieser Ansatz die Leistung erheblich steigert, verursacht er auch erhebliche Trainingskosten. In diesem Artikel untersuchen wir, wie Vision-Language (VL)-Darstellungen effektiv mit Aktionen (A) verbunden werden können. Wir stellen VLA-Adapter vor, ein neuartiges Paradigma, das darauf abzielt, die Abhängigkeit von VLA-Modellen von groß angelegten VLMs und umfangreichem Vortraining zu verringern. Zu diesem Zweck analysieren wir zunächst systematisch die Wirksamkeit verschiedener VL-Bedingungen und präsentieren wichtige Erkenntnisse darüber, welche Bedingungen für die Überbrückung von Wahrnehmungs- und Aktionsräumen entscheidend sind. Basierend auf diesen Erkenntnissen schlagen wir ein leichtgewichtiges Policy-Modul mit Bridge Attention vor, das die optimale Bindung autonom in den Aktionsraum einfügt. Auf diese Weise erreicht unsere Methode eine hohe Leistung mit nur einem 0,5-Milliarden-Parameter-Backbone, ohne jegliches Vortraining mit Roboterdaten. Umfangreiche Experimente auf simulierten und realen Robotik-Benchmarks zeigen, dass VLA-Adapter nicht nur eine state-of-the-art Leistung erzielt, sondern auch die bisher schnellste Inferenzgeschwindigkeit bietet. Darüber hinaus ermöglicht VLA-Adapter dank des vorgeschlagenen fortschrittlichen Überbrückungsparadigmas das Training eines leistungsstarken VLA-Modells in nur 8 Stunden auf einer einzigen Consumer-GPU, wodurch die Hürde für die Bereitstellung des VLA-Modells erheblich gesenkt wird. Projektseite: https://vla-adapter.github.io/.
English
Vision-Language-Action (VLA) models typically bridge the gap between
perceptual and action spaces by pre-training a large-scale Vision-Language
Model (VLM) on robotic data. While this approach greatly enhances performance,
it also incurs significant training costs. In this paper, we investigate how to
effectively bridge vision-language (VL) representations to action (A). We
introduce VLA-Adapter, a novel paradigm designed to reduce the reliance of VLA
models on large-scale VLMs and extensive pre-training. To this end, we first
systematically analyze the effectiveness of various VL conditions and present
key findings on which conditions are essential for bridging perception and
action spaces. Based on these insights, we propose a lightweight Policy module
with Bridge Attention, which autonomously injects the optimal condition into
the action space. In this way, our method achieves high performance using only
a 0.5B-parameter backbone, without any robotic data pre-training. Extensive
experiments on both simulated and real-world robotic benchmarks demonstrate
that VLA-Adapter not only achieves state-of-the-art level performance, but also
offers the fast inference speed reported to date. Furthermore, thanks to the
proposed advanced bridging paradigm, VLA-Adapter enables the training of a
powerful VLA model in just 8 hours on a single consumer-grade GPU, greatly
lowering the barrier to deploying the VLA model. Project page:
https://vla-adapter.github.io/.