StableVLA: Rumo a Modelos Visão-Linguagem-Ação Robustos sem Dados Extras

Resumo

É inviável abranger todas as possíveis perturbações no conjunto de dados de treinamento. Isso levanta uma questão crítica sobre a robustez dos modelos Visão-Linguagem-Ação (VLA) ao encontrar perturbações visuais não vistas no mundo real, particularmente em condições visuais imperfeitas. Neste trabalho, realizamos um estudo sistemático baseado em modelos VLA de última geração recentes e revelamos uma queda significativa de desempenho quando perturbações visuais ausentes nos dados de treinamento são introduzidas. Para mitigar esse problema, propomos um módulo adaptador leve fundamentado na teoria da informação, denominado Adaptador de Gargalo de Informação (IB-Adapter), que filtra seletivamente o ruído potencial das entradas visuais. Sem exigir quaisquer dados extras ou estratégias de aumento, o IB-Adapter melhora consistentemente a linha de base em uma média de 30%, enquanto adiciona menos de 10 milhões de parâmetros, demonstrando notável eficiência e eficácia. Além disso, mesmo com um backbone 14 vezes menor (0,5B parâmetros) e sem pré-treinamento no conjunto de dados Open X-Embodiment, nosso modelo StableVLA alcança robustez competitiva com VLAs de última geração da escala de 7B. Com uma sobrecarga de parâmetros insignificante (<10M), nossa abordagem mantém a precisão em tarefas de longo horizonte e supera o OpenPi sob corrupções visuais sintéticas e físicas.

English

It is infeasible to encompass all possible disturbances within the training dataset. This raises a critical question regarding the robustness of Vision-Language-Action (VLA) models when encountering unseen real-world visual disturbances, particularly under imperfect visual conditions. In this work, we conduct a systematic study based on recent state-of-the-art VLA models and reveal a significant performance drop when visual disturbances absent from the training data are introduced. To mitigate this issue, we propose a lightweight adapter module grounded in information theory, termed the Information Bottleneck Adapter (IB-Adapter), which selectively filters potential noise from visual inputs. Without requiring any extra data or augmentation strategies, IB-Adapter consistently improves over the baseline by an average of 30%, while adding fewer than 10M parameters, demonstrating notable efficiency and effectiveness. Furthermore, even with a 14x smaller backbone (0.5B parameters) and no pre-training on the Open X-Embodiment dataset, our model StableVLA achieves robustness competitive with 7B-scale state-of-the-art VLAs. With negligible parameter overhead (<10M), our approach maintains accuracy on long-horizon tasks and surpasses OpenPi under both synthetic and physical visual corruptions.