ChatPaper.aiChatPaper

LIBERO-Plus : Analyse approfondie de la robustesse des modèles vision-langage-action

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

October 15, 2025
papers.authors: Senyu Fei, Siyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu
cs.AI

papers.abstract

Les modèles Visuel-Langage-Action (VLA) affichent des taux de réussite impressionnants sur les benchmarks de manipulation robotique, mais ces résultats pourraient masquer des faiblesses fondamentales en matière de robustesse. Nous réalisons une analyse systématique des vulnérabilités en introduisant des perturbations contrôlées selon sept dimensions : la disposition des objets, les angles de vue de la caméra, les états initiaux du robot, les instructions langagières, les conditions d'éclairage, les textures de fond et le bruit des capteurs. Nous avons analysé de manière exhaustive plusieurs modèles de pointe et révélé une fragilité constante sous une apparente compétence. Notre analyse met en lumière des faiblesses critiques : les modèles présentent une sensibilité extrême aux facteurs de perturbation, notamment les angles de vue de la caméra et les états initiaux du robot, avec une chute de performance de 95 % à moins de 30 % sous des perturbations modérées. Étonnamment, les modèles sont largement insensibles aux variations langagières, et des expériences supplémentaires révèlent qu'ils ont tendance à ignorer complètement les instructions langagières. Nos résultats remettent en question l'hypothèse selon laquelle des scores élevés aux benchmarks équivalent à une véritable compétence et soulignent la nécessité de pratiques d'évaluation qui mesurent la fiabilité face à des variations réalistes.
English
Visual-Language-Action (VLA) models report impressive success rates on robotic manipulation benchmarks, yet these results may mask fundamental weaknesses in robustness. We perform a systematic vulnerability analysis by introducing controlled perturbations across seven dimensions: objects layout, camera viewpoints, robot initial states, language instructions, light conditions, background textures and sensor noise. We comprehensively analyzed multiple state-of-the-art models and revealed consistent brittleness beneath apparent competence. Our analysis exposes critical weaknesses: models exhibit extreme sensitivity to perturbation factors, including camera viewpoints and robot initial states, with performance dropping from 95% to below 30% under modest perturbations. Surprisingly, models are largely insensitive to language variations, with further experiments revealing that models tend to ignore language instructions completely. Our findings challenge the assumption that high benchmark scores equate to true competency and highlight the need for evaluation practices that assess reliability under realistic variation.
PDF425October 16, 2025