RoboSemanticBench: Diagnose der semantischen Verankerung in der Handlungsvorhersage für VLA-Modelle

Zusammenfassung

Vision-Sprache-Aktion-Modelle (VLA-Modelle) basieren auf der Prämisse, dass semantisches Verständnis aus vortrainierten Sprach- oder Vision-Sprache-Backbones die Vorhersage von Roboteraktionen leiten sollte. Dennoch wird die Feinabstimmung von Robotern als Imitation über aufgabenspezifische Aktionsverteilungen optimiert, und viele Evaluierungen können durch visuelle oder Instruktions-Aktions-Shortcuts gelöst werden. Wir führen RoboSemanticBench (RSB) ein, einen verkörperten Benchmark zur Diagnose der semantischen Verankerung in der Aktionsvorhersage: ob nachtrainierte VLA-Modelle komplexe Instruktionssemantik nutzen können, um das korrekte physische Ziel auszuwählen und zu manipulieren. In jeder Episode erhält ein Roboter eine Multiple-Choice-Frage aus Mathematik oder Allgemeinwissen, beobachtet Antwortblöcke als Kandidaten und muss den Block greifen, der der richtigen Antwort entspricht. RSB umfasst kontrollierte Arithmetik, mathematisches Verständnis auf Grundschulniveau sowie Alltagsverstand oder Faktenwissen in Vier-Auswahl- und Zehn-Auswahl-Suiten. Über repräsentative VLA-Modelle hinweg stellen wir fest, dass viele Politiken lernen, Kandidatenblöcke zu greifen, aber den semantisch korrekten Block nach Kontrolle des Greiferfolgs mit nahezu zufälligen oder unterzufälligen Raten auswählen, was eine anhaltende Lücke zwischen semantischer Kompetenz auf Backbone-Ebene und Aktionsvorhersage offenbart.

English

Vision-language-action (VLA) models are built on the premise that semantic understanding from pretrained language or vision-language backbones should guide robot action prediction. Yet robot fine-tuning is optimized as imitation over task-specific action distributions, and many evaluations can be solved through visual or instruction-action shortcuts. We introduce RoboSemanticBench (RSB), an embodied benchmark for diagnosing semantic grounding in action prediction: whether post-trained VLA models can use complex instruction semantics to select and manipulate the correct physical target. In each episode, a robot receives a multiple-choice math or general-knowledge question, observes candidate answer blocks, and must grasp the block corresponding to the correct answer. RSB covers controlled arithmetic, grade-school mathematical understanding, and commonsense or factual understanding under four-choice and ten-choice suites. Across representative VLA models, we find that many policies learn to grasp candidate blocks but select the semantically correct block at near-random or below-random rates after controlling for grasp success, revealing a persistent gap between backbone-level semantic competence and action prediction.