LIBERO-Para: Um Benchmark e Métricas de Diagnóstico para Robustez de Paráfrase em Modelos VLA
LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models
March 30, 2026
Autores: Chanyoung Kim, Minwoo Kim, Minseok Kang, Hyunwoo Kim, Dahuin Jung
cs.AI
Resumo
Os modelos Visão-Linguagem-Ação (VLA) alcançam um forte desempenho na manipulação robótica ao aproveitar backbones de visão e linguagem pré-treinados. No entanto, em configurações robóticas downstream, eles são tipicamente ajustados com dados limitados, levando a um sobreajuste a formulações específicas de instruções e deixando a robustez a instruções parafraseadas pouco explorada. Para estudar esta lacuna, introduzimos o LIBERO-Para, um benchmark controlado que varia independentemente as expressões de ação e as referências a objetos para uma análise granular da generalização linguística. Através de sete configurações de VLA (0,6B-7,5B), observamos uma degradação consistente de desempenho de 22-52 pp sob paráfrase. Esta degradação é impulsionada principalmente pela variação léxica a nível de objeto: mesmo simples substituições por sinónimos causam grandes quedas, indicando uma dependência de correspondência superficial em vez de uma fundamentação semântica. Além disso, 80-96% das falhas surgem de uma divergência de trajetória a nível de planeamento, e não de erros de execução, mostrando que a paráfrase perturba a identificação da tarefa. A taxa de sucesso binária trata todas as paráfrases de forma igual, obscurecendo se os modelos têm um desempenho consistente em todos os níveis de dificuldade ou se dependem de casos mais fáceis. Para resolver isto, propomos o PRIDE, uma métrica que quantifica a dificuldade da paráfrase usando fatores semânticos e sintáticos. O nosso benchmark e o código correspondente estão disponíveis em: https://github.com/cau-hai-lab/LIBERO-Para
English
Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para