RoboSemanticBench: Диагностика семантического обоснования в предсказании действий для моделей VLA

Аннотация

Модели «зрение-язык-действие» (VLA) строятся на предпосылке, что семантическое понимание, полученное из предобученных языковых или зрительно-языковых основ, должно направлять предсказание действий робота. Однако тонкая настройка робота оптимизируется как имитация по распределениям действий, специфичным для задачи, а многие оценки могут быть решены с использованием визуальных или инструкционно-действенных упрощений. Мы представляем RoboSemanticBench (RSB) — воплощённый бенчмарк для диагностики семантической привязки в предсказании действий: способны ли пост-обученные VLA модели использовать сложную семантику инструкций для выбора и манипуляции правильным физическим объектом. В каждом эпизоде робот получает вопрос с множественным выбором по математике или общим знаниям, наблюдает блоки-кандидаты с ответами и должен захватить блок, соответствующий правильному ответу. RSB охватывает контролируемую арифметику, понимание математики на уровне начальной школы, а также понимание фактов или здравого смысла в наборах с четырьмя и десятью вариантами. При оценке репрезентативных VLA-моделей мы обнаруживаем, что многие политики обучаются захватывать блоки-кандидаты, но выбирают семантически правильный блок с почти случайными или ниже случайных показателями после контроля за успешностью захвата, что выявляет устойчивый разрыв между семантической компетентностью на уровне основы и предсказанием действий.

English

Vision-language-action (VLA) models are built on the premise that semantic understanding from pretrained language or vision-language backbones should guide robot action prediction. Yet robot fine-tuning is optimized as imitation over task-specific action distributions, and many evaluations can be solved through visual or instruction-action shortcuts. We introduce RoboSemanticBench (RSB), an embodied benchmark for diagnosing semantic grounding in action prediction: whether post-trained VLA models can use complex instruction semantics to select and manipulate the correct physical target. In each episode, a robot receives a multiple-choice math or general-knowledge question, observes candidate answer blocks, and must grasp the block corresponding to the correct answer. RSB covers controlled arithmetic, grade-school mathematical understanding, and commonsense or factual understanding under four-choice and ten-choice suites. Across representative VLA models, we find that many policies learn to grasp candidate blocks but select the semantically correct block at near-random or below-random rates after controlling for grasp success, revealing a persistent gap between backbone-level semantic competence and action prediction.