ChatPaper.aiChatPaper

LIBERO-Para: 시각-언어 모델의 파라프레이즈 강건성 평가를 위한 벤치마크 및 메트릭스

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

March 30, 2026
저자: Chanyoung Kim, Minwoo Kim, Minseok Kang, Hyunwoo Kim, Dahuin Jung
cs.AI

초록

비전-언어-행동(VLA) 모델은 사전 학습된 비전-언어 백본을 활용하여 로봇 매니퓰레이션에서 강력한 성능을 달성합니다. 그러나 하위 로봇 설정에서는 일반적으로 제한된 데이터로 미세 조정되기 때문에 특정 명령어 형식에 과적합되고, 파라프레이즈된 명령어에 대한 강건성은 충분히 연구되지 못했습니다. 이러한 격차를 연구하기 위해 우리는 언어적 일반화를 세분화하여 분석하기 위해 행동 표현과 객체 참조를 독립적으로 변화시키는 통제된 벤치마크인 LIBERO-Para를 소개합니다. 7가지 VLA 구성(0.6B-7.5B)에서 파라프레이징 시 22-52pp의 일관된 성능 저하를 관찰했습니다. 이 성능 저하는 주로 객체 수준의 어휘적 변이에 기인합니다: 간단한 동의어 치환만으로도 큰 성능 하락이 발생하며, 이는 의미론적 접근보다 표면적 매칭에 의존함을 시사합니다. 더욱이, 실패의 80-96%는 실행 오류가 아닌 계획 수준의 궤적 차이에서 비롯되며, 이는 파라프레이징이 작업 식별을 방해함을 보여줍니다. 이진 성공률은 모든 파라프레이즈를 동등하게 취급하여 모델이 난이도에 걸쳐 일관되게 수행하는지 혹은 쉬운 경우에 의존하는지 모호하게 만듭니다. 이를 해결하기 위해 우리는 의미론적 및 구문론적 요소를 사용하여 파라프레이즈 난이도를 정량화하는 메트릭인 PRIDE를 제안합니다. 우리의 벤치마크와 해당 코드는 https://github.com/cau-hai-lab/LIBERO-Para에서 이용 가능합니다.
English
Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para
PDF712April 8, 2026