LIBERO-Para: Un Benchmark Diagnostico e Metriche per la Robustezza alla Parafrasi nei Modelli VLA

Abstract

I modelli Vision-Language-Action (VLA) raggiungono prestazioni elevate nella manipolazione robotica sfruttando backbone visione-linguaggio pre-addestrati. Tuttavia, nelle applicazioni robotiche downstream, vengono tipicamente messi a punto con dati limitati, portando a un overfitting verso formulazioni specifiche delle istruzioni e lasciando inesplorata la robustezza rispetto a istruzioni parafrasate. Per studiare questa lacuna, introduciamo LIBERO-Para, un benchmark controllato che varia indipendentemente le espressioni d'azione e i riferimenti agli oggetti per un'analisi granulare della generalizzazione linguistica. Attraverso sette configurazioni VLA (0.6B-7.5B), osserviamo un consistente degrado delle prestazioni del 22-52 pp in caso di parafrasi. Questo degrado è principalmente guidato dalla variazione lessicale a livello di oggetto: anche semplici sostituzioni di sinonimi causano forti cali, indicando una dipendenza dalla corrispondenza superficiale piuttosto che dalla comprensione semantica. Inoltre, l'80-96% degli errori deriva da una divergenza a livello di pianificazione della traiettoria piuttosto che da errori di esecuzione, mostrando che la parafrasi altera l'identificazione del compito. Il tasso di successo binario tratta tutte le parafrasi allo stesso modo, oscurando se i modelli performino in modo coerente attraverso i livelli di difficoltà o si affidino ai casi più facili. Per affrontare questo problema, proponiamo PRIDE, una metrica che quantifica la difficoltà della parafrasi utilizzando fattori semantici e sintattici. Il nostro benchmark e il codice corrispondente sono disponibili su: https://github.com/cau-hai-lab/LIBERO-Para

English

Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para

LIBERO-Para: Un Benchmark Diagnostico e Metriche per la Robustezza alla Parafrasi nei Modelli VLA

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Abstract

Support