RoboSemanticBench: Diagnóstico da Ancoragem Semântica na Predição de Ações para Modelos VLA

Resumo

Modelos de visão-linguagem-ação (VLA) são construídos sobre a premissa de que a compreensão semântica proveniente de backbones de linguagem ou visão-linguagem pré-treinados deve guiar a predição de ações robóticas. No entanto, o ajuste fino robótico é otimizado como imitação sobre distribuições de ações específicas da tarefa, e muitas avaliações podem ser resolvidas por meio de atalhos visuais ou de instrução-ação. Apresentamos o RoboSemanticBench (RSB), um benchmark incorporado para diagnosticar a fundamentação semântica na predição de ações: se modelos VLA pós-treinados conseguem usar a semântica complexa de instruções para selecionar e manipular o alvo físico correto. Em cada episódio, um robô recebe uma pergunta de múltipla escolha de matemática ou conhecimento geral, observa blocos de respostas candidatas e deve agarrar o bloco correspondente à resposta correta. O RSB abrange aritmética controlada, compreensão matemática de nível escolar básico e compreensão de senso comum ou factual em suítes de quatro e dez escolhas. Através de modelos VLA representativos, descobrimos que muitas políticas aprendem a agarrar blocos candidatos, mas selecionam o bloco semanticamente correto em taxas próximas ao aleatório ou abaixo dele, após controlar pelo sucesso da ação de agarrar, revelando uma lacuna persistente entre a competência semântica no nível do backbone e a predição de ações.

English

Vision-language-action (VLA) models are built on the premise that semantic understanding from pretrained language or vision-language backbones should guide robot action prediction. Yet robot fine-tuning is optimized as imitation over task-specific action distributions, and many evaluations can be solved through visual or instruction-action shortcuts. We introduce RoboSemanticBench (RSB), an embodied benchmark for diagnosing semantic grounding in action prediction: whether post-trained VLA models can use complex instruction semantics to select and manipulate the correct physical target. In each episode, a robot receives a multiple-choice math or general-knowledge question, observes candidate answer blocks, and must grasp the block corresponding to the correct answer. RSB covers controlled arithmetic, grade-school mathematical understanding, and commonsense or factual understanding under four-choice and ten-choice suites. Across representative VLA models, we find that many policies learn to grasp candidate blocks but select the semantically correct block at near-random or below-random rates after controlling for grasp success, revealing a persistent gap between backbone-level semantic competence and action prediction.