ChatPaper.aiChatPaper

LIBERO-Plus: Análise Aprofundada da Robustez de Modelos Visão-Linguagem-Ação

LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

October 15, 2025
Autores: Senyu Fei, Siyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu
cs.AI

Resumo

Os modelos Visual-Language-Action (VLA) relatam taxas de sucesso impressionantes em benchmarks de manipulação robótica, mas esses resultados podem mascarar fraquezas fundamentais em termos de robustez. Realizamos uma análise sistemática de vulnerabilidades ao introduzir perturbações controladas em sete dimensões: disposição de objetos, ângulos de câmera, estados iniciais do robô, instruções de linguagem, condições de iluminação, texturas de fundo e ruído de sensores. Analisamos de forma abrangente vários modelos state-of-the-art e revelamos uma fragilidade consistente por trás de uma aparente competência. Nossa análise expõe fraquezas críticas: os modelos exibem extrema sensibilidade a fatores de perturbação, incluindo ângulos de câmera e estados iniciais do robô, com o desempenho caindo de 95% para menos de 30% sob perturbações modestas. Surpreendentemente, os modelos são amplamente insensíveis a variações de linguagem, com experimentos adicionais revelando que os modelos tendem a ignorar completamente as instruções de linguagem. Nossas descobertas desafiam a suposição de que altas pontuações em benchmarks equivalem a uma verdadeira competência e destacam a necessidade de práticas de avaliação que testem a confiabilidade sob variações realistas.
English
Visual-Language-Action (VLA) models report impressive success rates on robotic manipulation benchmarks, yet these results may mask fundamental weaknesses in robustness. We perform a systematic vulnerability analysis by introducing controlled perturbations across seven dimensions: objects layout, camera viewpoints, robot initial states, language instructions, light conditions, background textures and sensor noise. We comprehensively analyzed multiple state-of-the-art models and revealed consistent brittleness beneath apparent competence. Our analysis exposes critical weaknesses: models exhibit extreme sensitivity to perturbation factors, including camera viewpoints and robot initial states, with performance dropping from 95% to below 30% under modest perturbations. Surprisingly, models are largely insensitive to language variations, with further experiments revealing that models tend to ignore language instructions completely. Our findings challenge the assumption that high benchmark scores equate to true competency and highlight the need for evaluation practices that assess reliability under realistic variation.
PDF425October 16, 2025