ChatPaper.aiChatPaper

LIBERO-Plus: Análisis Profundo de Robustez en Modelos de Visión-Lenguaje-Acción

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

October 15, 2025
Autores: Senyu Fei, Siyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu
cs.AI

Resumen

Los modelos Visual-Language-Action (VLA) reportan tasas de éxito impresionantes en los puntos de referencia de manipulación robótica, sin embargo, estos resultados pueden ocultar debilidades fundamentales en cuanto a robustez. Realizamos un análisis sistemático de vulnerabilidades mediante la introducción de perturbaciones controladas en siete dimensiones: disposición de objetos, ángulos de cámara, estados iniciales del robot, instrucciones de lenguaje, condiciones de iluminación, texturas de fondo y ruido de sensores. Analizamos exhaustivamente múltiples modelos de última generación y revelamos una fragilidad consistente bajo una aparente competencia. Nuestro análisis expone debilidades críticas: los modelos muestran una sensibilidad extrema a factores de perturbación, como los ángulos de cámara y los estados iniciales del robot, con un rendimiento que cae del 95% a menos del 30% bajo perturbaciones modestas. Sorprendentemente, los modelos son en gran medida insensibles a las variaciones del lenguaje, y experimentos adicionales revelan que tienden a ignorar por completo las instrucciones de lenguaje. Nuestros hallazgos desafían la suposición de que las puntuaciones altas en los puntos de referencia equivalen a una verdadera competencia y destacan la necesidad de prácticas de evaluación que midan la confiabilidad bajo variaciones realistas.
English
Visual-Language-Action (VLA) models report impressive success rates on robotic manipulation benchmarks, yet these results may mask fundamental weaknesses in robustness. We perform a systematic vulnerability analysis by introducing controlled perturbations across seven dimensions: objects layout, camera viewpoints, robot initial states, language instructions, light conditions, background textures and sensor noise. We comprehensively analyzed multiple state-of-the-art models and revealed consistent brittleness beneath apparent competence. Our analysis exposes critical weaknesses: models exhibit extreme sensitivity to perturbation factors, including camera viewpoints and robot initial states, with performance dropping from 95% to below 30% under modest perturbations. Surprisingly, models are largely insensitive to language variations, with further experiments revealing that models tend to ignore language instructions completely. Our findings challenge the assumption that high benchmark scores equate to true competency and highlight the need for evaluation practices that assess reliability under realistic variation.
PDF425October 16, 2025