Mechanistische Interpretierbarkeit zur Steuerung von Vision-Sprache-Handlungs-Modellen

papers.abstract

Vision-Language-Action (VLA)-Modelle stellen einen vielversprechenden Ansatz zur Realisierung von generalistischen, verkörperten Agenten dar, die sich schnell an neue Aufgaben, Modalitäten und Umgebungen anpassen können. Allerdings bleiben Methoden zur Interpretation und Steuerung von VLA-Modellen weit hinter klassischen Robotik-Pipelines zurück, die auf expliziten Modellen von Kinematik, Dynamik und Regelung basieren. Dieser Mangel an mechanistischem Verständnis ist eine zentrale Herausforderung für den Einsatz gelernten Verhaltens in der realen Robotik, wo Robustheit und Erklärbarkeit entscheidend sind. Angeregt durch Fortschritte in der mechanistischen Interpretierbarkeit großer Sprachmodelle, führen wir das erste Framework zur Interpretation und Steuerung von VLA-Modellen über ihre internen Repräsentationen ein, das eine direkte Intervention im Modellverhalten zur Inferenzzeit ermöglicht. Wir projizieren Feedforward-Aktivierungen innerhalb von Transformer-Schichten auf die Token-Einbettungsbasis und identifizieren spärliche semantische Richtungen – wie Geschwindigkeit und Richtung –, die kausal mit der Aktionsauswahl verknüpft sind. Aufbauend auf diesen Erkenntnissen präsentieren wir eine allgemeine Methode zur Aktivierungssteuerung, die das Verhalten in Echtzeit moduliert, ohne Feinabstimmung, Belohnungssignale oder Interaktion mit der Umgebung. Wir evaluieren diese Methode an zwei kürzlich veröffentlichten Open-Source-VLA-Modellen, Pi0 und OpenVLA, und demonstrieren eine Null-Shot-Verhaltenskontrolle in der Simulation (LIBERO) sowie auf einem physischen Roboter (UR5). Diese Arbeit zeigt, dass interpretierbare Komponenten verkörperter VLA-Modelle systematisch zur Steuerung genutzt werden können – und etabliert damit ein neues Paradigma für transparente und steuerbare Foundation-Modelle in der Robotik.

English

Vision-Language-Action (VLA) models are a promising path to realizing generalist embodied agents that can quickly adapt to new tasks, modalities, and environments. However, methods for interpreting and steering VLAs fall far short of classical robotics pipelines, which are grounded in explicit models of kinematics, dynamics, and control. This lack of mechanistic insight is a central challenge for deploying learned policies in real-world robotics, where robustness and explainability are critical. Motivated by advances in mechanistic interpretability for large language models, we introduce the first framework for interpreting and steering VLAs via their internal representations, enabling direct intervention in model behavior at inference time. We project feedforward activations within transformer layers onto the token embedding basis, identifying sparse semantic directions - such as speed and direction - that are causally linked to action selection. Leveraging these findings, we introduce a general-purpose activation steering method that modulates behavior in real time, without fine-tuning, reward signals, or environment interaction. We evaluate this method on two recent open-source VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that interpretable components of embodied VLAs can be systematically harnessed for control - establishing a new paradigm for transparent and steerable foundation models in robotics.

Mechanistische Interpretierbarkeit zur Steuerung von Vision-Sprache-Handlungs-Modellen

Mechanistic interpretability for steering vision-language-action models

papers.abstract

Support