RoboSemanticBench : Diagnostic de l'ancrage sémantique dans la prédiction d'action pour les modèles VLA

Résumé

Les modèles vision-langage-action (VLA) reposent sur le principe selon lequel la compréhension sémantique issue de modules pré-entraînés pour le langage ou la vision-langage devrait guider la prédiction d'action du robot. Pourtant, le fine-tuning robotique est optimisé comme une imitation sur des distributions d'action spécifiques à la tâche, et de nombreuses évaluations peuvent être résolues grâce à des raccourcis visuels ou instruction-action. Nous présentons RoboSemanticBench (RSB), un benchmark embarqué pour diagnostiquer l'ancrage sémantique dans la prédiction d'action : savoir si les modèles VLA post-entraînés peuvent utiliser la sémantique complexe des instructions pour sélectionner et manipuler la cible physique correcte. Dans chaque épisode, un robot reçoit une question à choix multiples de mathématiques ou de culture générale, observe des blocs de réponses candidates, et doit saisir le bloc correspondant à la bonne réponse. RSB couvre le calcul contrôlé, la compréhension mathématique de niveau primaire, ainsi que la compréhension de bon sens ou factuelle, avec des suites à quatre et dix choix. Sur plusieurs modèles VLA représentatifs, nous constatons que de nombreuses politiques apprennent à saisir les blocs candidats, mais sélectionnent le bloc sémantiquement correct à des taux quasi aléatoires ou inférieurs au hasard après contrôle de la réussite de la saisie, révélant un écart persistant entre la compétence sémantique au niveau du module de base et la prédiction d'action.

English

Vision-language-action (VLA) models are built on the premise that semantic understanding from pretrained language or vision-language backbones should guide robot action prediction. Yet robot fine-tuning is optimized as imitation over task-specific action distributions, and many evaluations can be solved through visual or instruction-action shortcuts. We introduce RoboSemanticBench (RSB), an embodied benchmark for diagnosing semantic grounding in action prediction: whether post-trained VLA models can use complex instruction semantics to select and manipulate the correct physical target. In each episode, a robot receives a multiple-choice math or general-knowledge question, observes candidate answer blocks, and must grasp the block corresponding to the correct answer. RSB covers controlled arithmetic, grade-school mathematical understanding, and commonsense or factual understanding under four-choice and ten-choice suites. Across representative VLA models, we find that many policies learn to grasp candidate blocks but select the semantically correct block at near-random or below-random rates after controlling for grasp success, revealing a persistent gap between backbone-level semantic competence and action prediction.