LIBERO-Para: Ein diagnostischer Benchmark und Metriken für Paraphrasenrobustheit in VLA-Modellen

Zusammenfassung

Vision-Language-Action (VLA)-Modelle erzielen bei der Roboter-Manipulation hohe Leistungswerte, indem sie vortrainierte Vision-Language-Backbones nutzen. In nachgelagerten Robotikanwendungen werden sie jedoch typischerweise mit begrenzten Daten feinabgestimmt, was zu einer Überanpassung an spezifische Instruktionsformulierungen führt und die Robustheit gegenüber umschriebenen Anweisungen weitgehend unerforscht lässt. Um diese Lücke zu untersuchen, führen wir LIBERO-Para ein, einen kontrollierten Benchmark, der Aktionsausdrücke und Objektreferenzen unabhängig voneinander variiert, um eine feingranulare Analyse der linguistischen Generalisierung zu ermöglichen. Über sieben VLA-Konfigurationen (0,6–7,5 Mrd. Parameter) hinweg beobachten wir eine konsistente Leistungsverschlechterung von 22–52 Prozentpunkten bei Paraphrasierung. Diese Verschlechterung wird hauptsächlich durch lexikalische Variation auf Objektebene verursacht: Selbst einfache Synonymersetzungen führen zu starken Leistungseinbußen, was auf eine Abhängigkeit von oberflächlicher Mustererkennung anstelle semantischer Verankerung hindeutet. Darüber hinaus entstehen 80–96 % der Fehler durch Trajektorienabweichungen auf Planungsebene und nicht durch Ausführungsfehler, was zeigt, dass Paraphrasierung die Aufgabenidentifikation stört. Die binäre Erfolgsquote behandelt alle Paraphrasen gleichwertig und verschleiert, ob Modelle über verschiedene Schwierigkeitsgrade hinweg konsistent agieren oder sich auf einfachere Fälle stützen. Um dies zu adressieren, schlagen wir PRIDE vor, eine Metrik, die die Paraphrasenschwierigkeit anhand semantischer und syntaktischer Faktoren quantifiziert. Unser Benchmark und der entsprechende Code sind verfügbar unter: https://github.com/cau-hai-lab/LIBERO-Para

English

Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para

LIBERO-Para: Ein diagnostischer Benchmark und Metriken für Paraphrasenrobustheit in VLA-Modellen

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Zusammenfassung

Support