StableVLA: К робастным моделям зрения-языка-действия без дополнительных данных

Аннотация

Обучение на всех возможных возмущениях в рамках набора данных нецелесообразно. Это поднимает критический вопрос об устойчивости моделей зрительно-языковых-действий (VLA) при столкновении с невидимыми ранее реальными визуальными искажениями, особенно в условиях несовершенного восприятия. В данной работе мы проводим систематическое исследование на основе современных моделей VLA и выявляем значительное падение производительности при внесении визуальных возмущений, отсутствующих в обучающих данных. Для смягчения этой проблемы мы предлагаем легковесный модуль адаптера, основанный на теории информации, — Адаптер информационного узкого горлышка (IB-Adapter), который избирательно отфильтровывает потенциальный шум из визуальных входных данных. Не требуя ни дополнительных данных, ни стратегий аугментации, IB-Adapter стабильно превосходит базовую модель в среднем на 30%, добавляя при этом менее 10 миллионов параметров, что демонстрирует его заметную эффективность и результативность. Более того, даже с в 14 раз меньшей базовой моделью (0,5 млрд параметров) и без предварительного обучения на наборе данных Open X-Embodiment наша модель StableVLA достигает устойчивости, сопоставимой с современными VLA-моделями уровня 7 млрд параметров. При минимальных накладных расходах по параметрам (<10 млн) наш подход сохраняет точность на долгосрочных задачах и превосходит OpenPi как в условиях синтетических, так и физических визуальных искажений.

English

It is infeasible to encompass all possible disturbances within the training dataset. This raises a critical question regarding the robustness of Vision-Language-Action (VLA) models when encountering unseen real-world visual disturbances, particularly under imperfect visual conditions. In this work, we conduct a systematic study based on recent state-of-the-art VLA models and reveal a significant performance drop when visual disturbances absent from the training data are introduced. To mitigate this issue, we propose a lightweight adapter module grounded in information theory, termed the Information Bottleneck Adapter (IB-Adapter), which selectively filters potential noise from visual inputs. Without requiring any extra data or augmentation strategies, IB-Adapter consistently improves over the baseline by an average of 30%, while adding fewer than 10M parameters, demonstrating notable efficiency and effectiveness. Furthermore, even with a 14x smaller backbone (0.5B parameters) and no pre-training on the Open X-Embodiment dataset, our model StableVLA achieves robustness competitive with 7B-scale state-of-the-art VLAs. With negligible parameter overhead (<10M), our approach maintains accuracy on long-horizon tasks and surpasses OpenPi under both synthetic and physical visual corruptions.