LIBERO-Plus : Analyse approfondie de la robustesse des modèles vision-langage-action
LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models
October 15, 2025
papers.authors: Senyu Fei, Siyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu
cs.AI
papers.abstract
Les modèles Visuel-Langage-Action (VLA) affichent des taux de réussite impressionnants sur les benchmarks de manipulation robotique, mais ces résultats pourraient masquer des faiblesses fondamentales en matière de robustesse. Nous réalisons une analyse systématique des vulnérabilités en introduisant des perturbations contrôlées selon sept dimensions : la disposition des objets, les angles de vue de la caméra, les états initiaux du robot, les instructions langagières, les conditions d'éclairage, les textures de fond et le bruit des capteurs. Nous avons analysé de manière exhaustive plusieurs modèles de pointe et révélé une fragilité constante sous une apparente compétence. Notre analyse met en lumière des faiblesses critiques : les modèles présentent une sensibilité extrême aux facteurs de perturbation, notamment les angles de vue de la caméra et les états initiaux du robot, avec une chute de performance de 95 % à moins de 30 % sous des perturbations modérées. Étonnamment, les modèles sont largement insensibles aux variations langagières, et des expériences supplémentaires révèlent qu'ils ont tendance à ignorer complètement les instructions langagières. Nos résultats remettent en question l'hypothèse selon laquelle des scores élevés aux benchmarks équivalent à une véritable compétence et soulignent la nécessité de pratiques d'évaluation qui mesurent la fiabilité face à des variations réalistes.
English
Visual-Language-Action (VLA) models report impressive success rates on
robotic manipulation benchmarks, yet these results may mask fundamental
weaknesses in robustness. We perform a systematic vulnerability analysis by
introducing controlled perturbations across seven dimensions: objects layout,
camera viewpoints, robot initial states, language instructions, light
conditions, background textures and sensor noise. We comprehensively analyzed
multiple state-of-the-art models and revealed consistent brittleness beneath
apparent competence. Our analysis exposes critical weaknesses: models exhibit
extreme sensitivity to perturbation factors, including camera viewpoints and
robot initial states, with performance dropping from 95% to below 30% under
modest perturbations. Surprisingly, models are largely insensitive to language
variations, with further experiments revealing that models tend to ignore
language instructions completely. Our findings challenge the assumption that
high benchmark scores equate to true competency and highlight the need for
evaluation practices that assess reliability under realistic variation.