StableVLA: Hacia modelos robustos de visión-lenguaje-acción sin datos adicionales

Resumen

Es inviable abarcar todas las posibles perturbaciones dentro del conjunto de datos de entrenamiento. Esto plantea una cuestión crítica respecto a la robustez de los modelos Visión-Lenguaje-Acción (VLA) al enfrentar perturbaciones visuales del mundo real no vistas previamente, particularmente bajo condiciones visuales imperfectas. En este trabajo, realizamos un estudio sistemático basado en modelos VLA de última generación recientes y revelamos una caída significativa en el rendimiento cuando se introducen perturbaciones visuales ausentes en los datos de entrenamiento. Para mitigar este problema, proponemos un módulo adaptador ligero fundamentado en la teoría de la información, denominado Adaptador de Cuello de Botella Informacional (IB-Adapter), que filtra selectivamente el ruido potencial de las entradas visuales. Sin requerir datos adicionales ni estrategias de aumento, IB-Adapter mejora consistentemente la línea base en un promedio del 30%, añadiendo menos de 10M de parámetros, lo que demuestra una notable eficiencia y efectividad. Además, incluso con un backbone 14 veces más pequeño (0.5B de parámetros) y sin preentrenamiento en el conjunto de datos Open X-Embodiment, nuestro modelo StableVLA logra una robustez competitiva con los VLA de última generación a escala de 7B. Con una sobrecarga de parámetros insignificante (<10M), nuestro enfoque mantiene la precisión en tareas de horizonte largo y supera a OpenPi tanto bajo corrupciones visuales sintéticas como físicas.

English

It is infeasible to encompass all possible disturbances within the training dataset. This raises a critical question regarding the robustness of Vision-Language-Action (VLA) models when encountering unseen real-world visual disturbances, particularly under imperfect visual conditions. In this work, we conduct a systematic study based on recent state-of-the-art VLA models and reveal a significant performance drop when visual disturbances absent from the training data are introduced. To mitigate this issue, we propose a lightweight adapter module grounded in information theory, termed the Information Bottleneck Adapter (IB-Adapter), which selectively filters potential noise from visual inputs. Without requiring any extra data or augmentation strategies, IB-Adapter consistently improves over the baseline by an average of 30%, while adding fewer than 10M parameters, demonstrating notable efficiency and effectiveness. Furthermore, even with a 14x smaller backbone (0.5B parameters) and no pre-training on the Open X-Embodiment dataset, our model StableVLA achieves robustness competitive with 7B-scale state-of-the-art VLAs. With negligible parameter overhead (<10M), our approach maintains accuracy on long-horizon tasks and surpasses OpenPi under both synthetic and physical visual corruptions.