VLA-Adapter: Ein effektives Paradigma für kleinformatige Vision-Sprache-Handlungs-Modelle

papers.abstract

Vision-Language-Action (VLA)-Modelle überbrücken typischerweise die Lücke zwischen Wahrnehmungs- und Aktionsräumen, indem sie ein großes Vision-Language-Modell (VLM) mit Roboterdaten vortrainieren. Obwohl dieser Ansatz die Leistung erheblich steigert, verursacht er auch erhebliche Trainingskosten. In diesem Artikel untersuchen wir, wie Vision-Language (VL)-Darstellungen effektiv mit Aktionen (A) verbunden werden können. Wir stellen VLA-Adapter vor, ein neuartiges Paradigma, das darauf abzielt, die Abhängigkeit von VLA-Modellen von groß angelegten VLMs und umfangreichem Vortraining zu verringern. Zu diesem Zweck analysieren wir zunächst systematisch die Wirksamkeit verschiedener VL-Bedingungen und präsentieren wichtige Erkenntnisse darüber, welche Bedingungen für die Überbrückung von Wahrnehmungs- und Aktionsräumen entscheidend sind. Basierend auf diesen Erkenntnissen schlagen wir ein leichtgewichtiges Policy-Modul mit Bridge Attention vor, das die optimale Bindung autonom in den Aktionsraum einfügt. Auf diese Weise erreicht unsere Methode eine hohe Leistung mit nur einem 0,5-Milliarden-Parameter-Backbone, ohne jegliches Vortraining mit Roboterdaten. Umfangreiche Experimente auf simulierten und realen Robotik-Benchmarks zeigen, dass VLA-Adapter nicht nur eine state-of-the-art Leistung erzielt, sondern auch die bisher schnellste Inferenzgeschwindigkeit bietet. Darüber hinaus ermöglicht VLA-Adapter dank des vorgeschlagenen fortschrittlichen Überbrückungsparadigmas das Training eines leistungsstarken VLA-Modells in nur 8 Stunden auf einer einzigen Consumer-GPU, wodurch die Hürde für die Bereitstellung des VLA-Modells erheblich gesenkt wird. Projektseite: https://vla-adapter.github.io/.

English

Vision-Language-Action (VLA) models typically bridge the gap between perceptual and action spaces by pre-training a large-scale Vision-Language Model (VLM) on robotic data. While this approach greatly enhances performance, it also incurs significant training costs. In this paper, we investigate how to effectively bridge vision-language (VL) representations to action (A). We introduce VLA-Adapter, a novel paradigm designed to reduce the reliance of VLA models on large-scale VLMs and extensive pre-training. To this end, we first systematically analyze the effectiveness of various VL conditions and present key findings on which conditions are essential for bridging perception and action spaces. Based on these insights, we propose a lightweight Policy module with Bridge Attention, which autonomously injects the optimal condition into the action space. In this way, our method achieves high performance using only a 0.5B-parameter backbone, without any robotic data pre-training. Extensive experiments on both simulated and real-world robotic benchmarks demonstrate that VLA-Adapter not only achieves state-of-the-art level performance, but also offers the fast inference speed reported to date. Furthermore, thanks to the proposed advanced bridging paradigm, VLA-Adapter enables the training of a powerful VLA model in just 8 hours on a single consumer-grade GPU, greatly lowering the barrier to deploying the VLA model. Project page: https://vla-adapter.github.io/.

VLA-Adapter: Ein effektives Paradigma für kleinformatige Vision-Sprache-Handlungs-Modelle

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

papers.abstract

Support