LIBERO-Plus: 시각-언어-행동 모델의 심층적 견고성 분석
LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models
October 15, 2025
저자: Senyu Fei, Siyin Wang, Junhao Shi, Zihao Dai, Jikun Cai, Pengfang Qian, Li Ji, Xinzhe He, Shiduo Zhang, Zhaoye Fei, Jinlan Fu, Jingjing Gong, Xipeng Qiu
cs.AI
초록
시각-언어-행동(VLA) 모델들은 로봇 조작 벤치마크에서 인상적인 성공률을 보고하고 있지만, 이러한 결과는 견고성 측면에서 근본적인 약점을 가릴 수 있다. 우리는 물체 배치, 카메라 시점, 로봇 초기 상태, 언어 지시, 조명 조건, 배경 질감 및 센서 노이즈 등 7가지 차원에 걸쳐 통제된 섭동을 도입하여 체계적인 취약성 분석을 수행하였다. 여러 최신 모델을 포괄적으로 분석한 결과, 겉보기에는 유능해 보이는 모델들도 내재된 취약성을 보이는 것으로 나타났다. 우리의 분석은 모델들이 카메라 시점과 로봇 초기 상태를 포함한 섭동 요인에 극도로 민감하며, 약간의 섭동만으로도 성능이 95%에서 30% 미만으로 급락하는 중요한 약점을 드러냈다. 놀랍게도, 모델들은 언어 변이에 대해서는 대체로 둔감했으며, 추가 실험을 통해 모델들이 언어 지시를 완전히 무시하는 경향이 있음이 밝혀졌다. 이러한 연구 결과는 높은 벤치마크 점수가 진정한 역량과 동일하다는 가정에 의문을 제기하며, 현실적인 변동 하에서의 신뢰성을 평가하는 검증 방법의 필요성을 강조한다.
English
Visual-Language-Action (VLA) models report impressive success rates on
robotic manipulation benchmarks, yet these results may mask fundamental
weaknesses in robustness. We perform a systematic vulnerability analysis by
introducing controlled perturbations across seven dimensions: objects layout,
camera viewpoints, robot initial states, language instructions, light
conditions, background textures and sensor noise. We comprehensively analyzed
multiple state-of-the-art models and revealed consistent brittleness beneath
apparent competence. Our analysis exposes critical weaknesses: models exhibit
extreme sensitivity to perturbation factors, including camera viewpoints and
robot initial states, with performance dropping from 95% to below 30% under
modest perturbations. Surprisingly, models are largely insensitive to language
variations, with further experiments revealing that models tend to ignore
language instructions completely. Our findings challenge the assumption that
high benchmark scores equate to true competency and highlight the need for
evaluation practices that assess reliability under realistic variation.