LIBERO-Para: Un Benchmark de Diagnóstico y Métricas para la Robustez de Paráfrasis en Modelos VLA

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) logran un alto rendimiento en la manipulación robótica aprovechando arquitecturas base preentrenadas de visión y lenguaje. Sin embargo, en entornos robóticos posteriores, normalmente se ajustan con datos limitados, lo que conduce a un sobreajuste a formulaciones específicas de instrucciones y deja poco explorada la robustez frente a instrucciones parafraseadas. Para estudiar esta brecha, presentamos LIBERO-Para, un benchmark controlado que varía de forma independiente las expresiones de acción y las referencias a objetos para un análisis granular de la generalización lingüística. En siete configuraciones de VLA (0.6B-7.5B), observamos una degradación consistente del rendimiento de 22-52 pp bajo paráfrasis. Esta degradación está impulsada principalmente por la variación léxica a nivel de objeto: incluso simples sustituciones de sinónimos causan grandes caídas, lo que indica una dependencia de la coincidencia superficial en lugar de la comprensión semántica. Además, el 80-96% de los fallos surgen de una divergencia de trayectoria a nivel de planificación y no de errores de ejecución, mostrando que la paráfrasis altera la identificación de la tarea. La tasa de éxito binaria trata todas las paráfrasis por igual, oscureciendo si los modelos se desempeñan de manera consistente en todos los niveles de dificultad o dependen de casos más fáciles. Para abordar esto, proponemos PRIDE, una métrica que cuantifica la dificultad de la paráfrasis utilizando factores semánticos y sintácticos. Nuestro benchmark y el código correspondiente están disponibles en: https://github.com/cau-hai-lab/LIBERO-Para

English

Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para

LIBERO-Para: Un Benchmark de Diagnóstico y Métricas para la Robustez de Paráfrasis en Modelos VLA

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Resumen

Support