LIBERO-Para: Een Diagnostische Benchmark en Metrieken voor Parafrase-Robuustheid in VLA-modellen

Samenvatting

Vision-Language-Action (VLA)-modellen behalen sterke prestaties in robotmanipulatie door gebruik te maken van vooraf getrainde vision-language-backbones. In downstream-roboticaomgevingen worden ze echter meestal afgestemd met beperkte data, wat leidt tot overfitting aan specifieke instructieformuleringen en waarbij robuustheid tegenover geparafraseerde instructies onderbelicht blijft. Om deze kloof te onderzoeken, introduceren we LIBERO-Para, een gecontroleerde benchmark die actie-uitdrukkingen en objectverwijzingen onafhankelijk varieert voor een fijnmazige analyse van linguïstische generalisatie. Over zeven VLA-configuraties (0,6B-7,5B) heen observeren we een consistente prestatieachteruitgang van 22-52 procentpunt bij parafrasering. Deze achteruitgang wordt voornamelijk gedreven door lexicale variatie op objectniveau: zelfs eenvoudige synoniemsubstituties veroorzaken grote dalingen, wat wijst op een afhankelijkheid van oppervlakkige matching in plaats van semantische verankering. Bovendien ontstaat 80-96% van de fouten door trajectdivergentie op planningsniveau in plaats van uitvoeringsfouten, wat aantoont dat parafrasering de taakidentificatie verstoort. Binaire slagingspercentages behandelen alle parafrases als gelijkwaardig, wat verhult of modellen consistent presteren over moeilijkheidsgraden heen of vertrouwen op eenvoudigere gevallen. Om dit aan te pakken, stellen we PRIDE voor, een metriek die de moeilijkheidsgraad van een parafrase kwantificeert aan de hand van semantische en syntactische factoren. Onze benchmark en bijbehorende code zijn beschikbaar op: https://github.com/cau-hai-lab/LIBERO-Para

English

Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para

LIBERO-Para: Een Diagnostische Benchmark en Metrieken voor Parafrase-Robuustheid in VLA-modellen

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Samenvatting

Support