StableVLA : Vers des modèles vision-langage-action robustes sans données supplémentaires

Résumé

Il est impossible d'englober toutes les perturbations possibles dans l'ensemble de données d'entraînement. Cela soulève une question cruciale concernant la robustesse des modèles Vision-Langage-Action (VLA) face à des perturbations visuelles réelles non rencontrées, en particulier dans des conditions visuelles imparfaites. Dans ce travail, nous menons une étude systématique basée sur les modèles VLA de pointe récents et révélons une baisse significative des performances lorsque des perturbations visuelles absentes des données d'entraînement sont introduites. Pour atténuer ce problème, nous proposons un module adaptateur léger fondé sur la théorie de l'information, appelé Adaptateur de Goulot d'Information (IB-Adapter), qui filtre sélectivement le bruit potentiel des entrées visuelles. Sans nécessiter de données supplémentaires ni de stratégies d'augmentation, IB-Adapter améliore constamment la référence de 30 % en moyenne, tout en ajoutant moins de 10 millions de paramètres, démontrant une efficacité et une efficience notables. De plus, même avec un backbone 14 fois plus petit (0,5 milliard de paramètres) et sans pré-entraînement sur l'ensemble de données Open X-Embodiment, notre modèle StableVLA atteint une robustesse compétitive avec les VLA de pointe à l'échelle de 7 milliards de paramètres. Avec un surcoût paramétrique négligeable (<10M), notre approche maintient la précision sur des tâches à long horizon et dépasse OpenPi sous des corruptions visuelles synthétiques et physiques.

English

It is infeasible to encompass all possible disturbances within the training dataset. This raises a critical question regarding the robustness of Vision-Language-Action (VLA) models when encountering unseen real-world visual disturbances, particularly under imperfect visual conditions. In this work, we conduct a systematic study based on recent state-of-the-art VLA models and reveal a significant performance drop when visual disturbances absent from the training data are introduced. To mitigate this issue, we propose a lightweight adapter module grounded in information theory, termed the Information Bottleneck Adapter (IB-Adapter), which selectively filters potential noise from visual inputs. Without requiring any extra data or augmentation strategies, IB-Adapter consistently improves over the baseline by an average of 30%, while adding fewer than 10M parameters, demonstrating notable efficiency and effectiveness. Furthermore, even with a 14x smaller backbone (0.5B parameters) and no pre-training on the Open X-Embodiment dataset, our model StableVLA achieves robustness competitive with 7B-scale state-of-the-art VLAs. With negligible parameter overhead (<10M), our approach maintains accuracy on long-horizon tasks and surpasses OpenPi under both synthetic and physical visual corruptions.