ChatPaper.aiChatPaper

LIBERO-Para: 視覚言語AIモデルの言い換えロバスト性のための診断ベンチマークと評価指標

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

March 30, 2026
著者: Chanyoung Kim, Minwoo Kim, Minseok Kang, Hyunwoo Kim, Dahuin Jung
cs.AI

要旨

Vision-Language-Action (VLA) モデルは、事前学習済みの視覚言語バックボーンを活用することで、ロボットマニピュレーションにおいて高い性能を発揮する。しかし、下流のロボットタスクでは、限られたデータでファインチューニングされることが一般的であり、特定の指示表現への過剰適合を引き起こし、言い換えられた指示に対する頑健性は十分に検討されていない。この課題を探るため、我々は LIBERO-Para を提案する。これは、動作表現と対象物参照を独立に変化させ、言語的汎化性能を詳細に分析するための制御されたベンチマークである。7つのVLA構成(0.6B~7.5B)を評価した結果、言い換え条件下で 22~52 パーセントポイントの一貫した性能低下が観測された。この低下は主に、対象物レベルの語彙的変異に起因する。単純な同義語の置換でも大幅な性能低下が生じることから、モデルが意味的基盤ではなく表面的なマッチングに依存していることが示唆される。さらに、失敗事例の 80~96% は実行エラーではなく、計画レベルの軌道の乖離に起因しており、言い換えがタスクの同定を妨げていることがわかる。二値的な成功率指標は全ての言い換えを均等に扱うため、モデルが難易度レベル間で一貫して性能を発揮しているか、あるいは容易な事例に依存しているかが不明確である。この問題に対処するため、我々は意味的・統語的要因を用いて言い換えの難易度を定量化する指標 PRIDE を提案する。ベンチマークおよび関連コードは以下で公開されている:https://github.com/cau-hai-lab/LIBERO-Para
English
Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para
PDF712April 8, 2026