LIBERO-Para : Un benchmark de diagnostic et des métriques pour la robustesse à la paraphrase dans les modèles VLA

Résumé

Les modèles Vision-Langage-Action (VLA) obtiennent des performances élevées en manipulation robotique en exploitant des modèles de base vision-langage pré-entraînés. Cependant, dans les applications robotiques en aval, ils sont généralement affinés avec des données limitées, ce qui entraîne un surapprentissage à des formulations d'instructions spécifiques et laisse la robustesse aux instructions paraphrasées peu explorée. Pour étudier cet écart, nous présentons LIBERO-Para, un benchmark contrôlé qui fait varier indépendamment les expressions d'action et les références aux objets pour une analyse granulaire de la généralisation linguistique. Sur sept configurations VLA (0,6B-7,5B), nous observons une dégradation constante des performances de 22 à 52 pp sous paraphrase. Cette dégradation est principalement due à la variation lexicale au niveau des objets : même de simples substitutions de synonymes entraînent des baisses importantes, indiquant une dépendance à l'appariement superficiel plutôt qu'à l'ancrage sémantique. De plus, 80 à 96 % des échecs proviennent d'une divergence de trajectoire au niveau de la planification plutôt que d'erreurs d'exécution, montrant que la paraphrase perturbe l'identification de la tâche. Le taux de succès binaire traite toutes les paraphrases de manière égale, occultant si les modèles performent de manière cohérente selon les niveaux de difficulté ou s'appuient sur les cas les plus faciles. Pour résoudre ce problème, nous proposons PRIDE, une métrique qui quantifie la difficulté de paraphrase en utilisant des facteurs sémantiques et syntaxiques. Notre benchmark et le code correspondant sont disponibles à l'adresse : https://github.com/cau-hai-lab/LIBERO-Para

English

Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para

LIBERO-Para : Un benchmark de diagnostic et des métriques pour la robustesse à la paraphrase dans les modèles VLA

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Résumé

Support