LIBERO-Plus: Análisis Profundo de Robustez en Modelos de Visión-Lenguaje-Acción
LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models
October 15, 2025
Autores: Senyu Fei, Siyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu
cs.AI
Resumen
Los modelos Visual-Language-Action (VLA) reportan tasas de éxito impresionantes en los puntos de referencia de manipulación robótica, sin embargo, estos resultados pueden ocultar debilidades fundamentales en cuanto a robustez. Realizamos un análisis sistemático de vulnerabilidades mediante la introducción de perturbaciones controladas en siete dimensiones: disposición de objetos, ángulos de cámara, estados iniciales del robot, instrucciones de lenguaje, condiciones de iluminación, texturas de fondo y ruido de sensores. Analizamos exhaustivamente múltiples modelos de última generación y revelamos una fragilidad consistente bajo una aparente competencia. Nuestro análisis expone debilidades críticas: los modelos muestran una sensibilidad extrema a factores de perturbación, como los ángulos de cámara y los estados iniciales del robot, con un rendimiento que cae del 95% a menos del 30% bajo perturbaciones modestas. Sorprendentemente, los modelos son en gran medida insensibles a las variaciones del lenguaje, y experimentos adicionales revelan que tienden a ignorar por completo las instrucciones de lenguaje. Nuestros hallazgos desafían la suposición de que las puntuaciones altas en los puntos de referencia equivalen a una verdadera competencia y destacan la necesidad de prácticas de evaluación que midan la confiabilidad bajo variaciones realistas.
English
Visual-Language-Action (VLA) models report impressive success rates on
robotic manipulation benchmarks, yet these results may mask fundamental
weaknesses in robustness. We perform a systematic vulnerability analysis by
introducing controlled perturbations across seven dimensions: objects layout,
camera viewpoints, robot initial states, language instructions, light
conditions, background textures and sensor noise. We comprehensively analyzed
multiple state-of-the-art models and revealed consistent brittleness beneath
apparent competence. Our analysis exposes critical weaknesses: models exhibit
extreme sensitivity to perturbation factors, including camera viewpoints and
robot initial states, with performance dropping from 95% to below 30% under
modest perturbations. Surprisingly, models are largely insensitive to language
variations, with further experiments revealing that models tend to ignore
language instructions completely. Our findings challenge the assumption that
high benchmark scores equate to true competency and highlight the need for
evaluation practices that assess reliability under realistic variation.