LIBERO-Para: Диагностический эталон и метрики для оценки устойчивости VLA-моделей к парафразам

Аннотация

Модели "Vision-Language-Action" (VLA) демонстрируют высокую производительность в задачах роботизированного манипулирования, используя предварительно обученные vision-language основы. Однако в последующих робототехнических сценариях их обычно дообучают на ограниченных данных, что приводит к переобучению под конкретные формулировки инструкций, а устойчивость к парафразированным инструкциям остаётся малоизученной. Для исследования этого пробела мы представляем LIBERO-Para — контролируемый бенчмарк, который независимо варьирует выражения действий и ссылки на объекты для детального анализа лингвистической обобщающей способности. На семи конфигурациях VLA (0.6B–7.5B) мы наблюдаем последовательное снижение производительности на 22–52 п.п. при парафразировании. Это снижение в основном обусловлено лексическими вариациями на уровне объектов: даже простые замены синонимов вызывают значительное падение, что указывает на зависимость от поверхностного соответствия, а не от семантического обоснования. Более того, 80–96% неудач возникают из-за расхождения траекторий на уровне планирования, а не ошибок исполнения, что показывает, что парафразирование нарушает идентификацию задачи. Бинарный показатель успеха трактует все парафразы одинаково, скрывая, работают ли модели стабильно на разных уровнях сложности или полагаются на более простые случаи. Чтобы решить эту проблему, мы предлагаем метрику PRIDE, которая количественно оценивает сложность парафразы с использованием семантических и синтаксических факторов. Наш бенчмарк и соответствующий код доступны по адресу: https://github.com/cau-hai-lab/LIBERO-Para.

English

Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para

LIBERO-Para: Диагностический эталон и метрики для оценки устойчивости VLA-моделей к парафразам

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Аннотация

Support