StableVLA: Auf dem Weg zu robusten Vision-Sprache-Aktion-Modellen ohne zusätzliche Daten

Zusammenfassung

Es ist unmöglich, alle möglichen Störungen im Trainingsdatensatz zu erfassen. Dies wirft eine kritische Frage hinsichtlich der Robustheit von Vision-Language-Action (VLA)-Modellen auf, wenn sie auf ungesehene reale visuelle Störungen treffen, insbesondere unter unvollkommenen visuellen Bedingungen. In dieser Arbeit führen wir eine systematische Studie auf der Grundlage aktueller State-of-the-Art-VLA-Modelle durch und zeigen einen signifikanten Leistungsabfall, wenn visuelle Störungen, die nicht in den Trainingsdaten enthalten sind, eingeführt werden. Um dieses Problem zu mildern, schlagen wir ein leichtes, auf Informationstheorie basierendes Adaptermodul vor, den Information Bottleneck Adapter (IB-Adapter), der potenzielles Rauschen aus visuellen Eingaben selektiv filtert. Ohne zusätzliche Daten oder Augmentierungsstrategien verbessert der IB-Adapter die Baseline durchschnittlich um 30%, während weniger als 10 Millionen Parameter hinzugefügt werden – eine bemerkenswerte Effizienz und Wirksamkeit. Darüber hinaus erreicht unser Modell StableVLA selbst mit einem 14-mal kleineren Backbone (0,5 Milliarden Parametern) und ohne Vortraining auf dem Open-X-Embodiment-Datensatz eine Robustheit, die mit State-of-the-Art-VLAs im 7B-Maßstab konkurrieren kann. Mit einem vernachlässigbaren Parameter-Overhead (<10M) bewahrt unser Ansatz die Genauigkeit bei Aufgaben mit langem Horizont und übertrifft OpenPi sowohl unter synthetischen als auch unter physischen visuellen Beeinträchtigungen.

English

It is infeasible to encompass all possible disturbances within the training dataset. This raises a critical question regarding the robustness of Vision-Language-Action (VLA) models when encountering unseen real-world visual disturbances, particularly under imperfect visual conditions. In this work, we conduct a systematic study based on recent state-of-the-art VLA models and reveal a significant performance drop when visual disturbances absent from the training data are introduced. To mitigate this issue, we propose a lightweight adapter module grounded in information theory, termed the Information Bottleneck Adapter (IB-Adapter), which selectively filters potential noise from visual inputs. Without requiring any extra data or augmentation strategies, IB-Adapter consistently improves over the baseline by an average of 30%, while adding fewer than 10M parameters, demonstrating notable efficiency and effectiveness. Furthermore, even with a 14x smaller backbone (0.5B parameters) and no pre-training on the Open X-Embodiment dataset, our model StableVLA achieves robustness competitive with 7B-scale state-of-the-art VLAs. With negligible parameter overhead (<10M), our approach maintains accuracy on long-horizon tasks and surpasses OpenPi under both synthetic and physical visual corruptions.