StableVLA: Naar robuuste visie-taal-actiemodellen zonder extra data

Samenvatting

Het is onhaalbaar om alle mogelijke verstoringen binnen de trainingsdataset te omvatten. Dit roept een kritieke vraag op over de robuustheid van Vision-Language-Action (VLA)-modellen wanneer ze worden geconfronteerd met ongeziene visuele verstoringen uit de echte wereld, met name onder onvolmaakte visuele omstandigheden. In dit werk voeren we een systematische studie uit op basis van recente state-of-the-art VLA-modellen en onthullen we een significante prestatievermindering wanneer visuele verstoringen die niet in de trainingsdata aanwezig zijn, worden geïntroduceerd. Om dit probleem te verminderen, stellen we een lichtgewicht adaptermodule voor, geworteld in de informatietheorie, genaamd de Information Bottleneck Adapter (IB-Adapter), die selectief mogelijke ruis uit visuele invoer filtert. Zonder extra data of augmentatiestrategieën te vereisen, verbetert IB-Adapter consequent de basislijn met gemiddeld 30%, terwijl er minder dan 10M parameters worden toegevoegd, wat een opmerkelijke efficiëntie en effectiviteit aantoont. Bovendien bereikt ons model StableVLA, zelfs met een 14x kleinere backbone (0,5B parameters) en zonder pre-training op de Open X-Embodiment-dataset, een robuustheid die concurrerend is met state-of-the-art VLA's op 7B-schaal. Met een verwaarloosbare parameteroverhead (<10M) behoudt onze aanpak nauwkeurigheid bij langetermijntaken en overtreft het OpenPi onder zowel synthetische als fysieke visuele corrupties.

English

It is infeasible to encompass all possible disturbances within the training dataset. This raises a critical question regarding the robustness of Vision-Language-Action (VLA) models when encountering unseen real-world visual disturbances, particularly under imperfect visual conditions. In this work, we conduct a systematic study based on recent state-of-the-art VLA models and reveal a significant performance drop when visual disturbances absent from the training data are introduced. To mitigate this issue, we propose a lightweight adapter module grounded in information theory, termed the Information Bottleneck Adapter (IB-Adapter), which selectively filters potential noise from visual inputs. Without requiring any extra data or augmentation strategies, IB-Adapter consistently improves over the baseline by an average of 30%, while adding fewer than 10M parameters, demonstrating notable efficiency and effectiveness. Furthermore, even with a 14x smaller backbone (0.5B parameters) and no pre-training on the Open X-Embodiment dataset, our model StableVLA achieves robustness competitive with 7B-scale state-of-the-art VLAs. With negligible parameter overhead (<10M), our approach maintains accuracy on long-horizon tasks and surpasses OpenPi under both synthetic and physical visual corruptions.