RoboSemanticBench: Diagnóstico del Anclaje Semántico en la Predicción de Acciones para Modelos VLA

Resumen

Los modelos visión-lenguaje-acción (VLA) se basan en la premisa de que la comprensión semántica proveniente de backbones preentrenados de lenguaje o visión-lenguaje debe guiar la predicción de acciones robóticas. Sin embargo, el ajuste fino del robot se optimiza como imitación sobre distribuciones de acciones específicas de la tarea, y muchas evaluaciones pueden resolverse mediante atajos visuales o de instrucción-acción. Presentamos RoboSemanticBench (RSB), un benchmark encarnado para diagnosticar el anclaje semántico en la predicción de acciones: si los modelos VLA post-entrenados pueden usar semántica de instrucciones complejas para seleccionar y manipular el objetivo físico correcto. En cada episodio, un robot recibe una pregunta de opción múltiple de matemáticas o cultura general, observa bloques de respuestas candidatas y debe agarrar el bloque correspondiente a la respuesta correcta. RSB cubre aritmética controlada, comprensión matemática de nivel escolar y comprensión de sentido común o factual bajo conjuntos de cuatro y diez opciones. En modelos VLA representativos, encontramos que muchas políticas aprenden a agarrar bloques candidatos pero seleccionan el bloque semánticamente correcto a tasas casi aleatorias o por debajo de lo aleatorio después de controlar por el éxito de agarre, revelando una brecha persistente entre la competencia semántica a nivel de backbone y la predicción de acciones.

English

Vision-language-action (VLA) models are built on the premise that semantic understanding from pretrained language or vision-language backbones should guide robot action prediction. Yet robot fine-tuning is optimized as imitation over task-specific action distributions, and many evaluations can be solved through visual or instruction-action shortcuts. We introduce RoboSemanticBench (RSB), an embodied benchmark for diagnosing semantic grounding in action prediction: whether post-trained VLA models can use complex instruction semantics to select and manipulate the correct physical target. In each episode, a robot receives a multiple-choice math or general-knowledge question, observes candidate answer blocks, and must grasp the block corresponding to the correct answer. RSB covers controlled arithmetic, grade-school mathematical understanding, and commonsense or factual understanding under four-choice and ten-choice suites. Across representative VLA models, we find that many policies learn to grasp candidate blocks but select the semantically correct block at near-random or below-random rates after controlling for grasp success, revealing a persistent gap between backbone-level semantic competence and action prediction.