Mechanistische Interpretierbarkeit zur Steuerung von Vision-Sprache-Handlungs-Modellen
Mechanistic interpretability for steering vision-language-action models
August 30, 2025
papers.authors: Bear Häon, Kaylene Stocking, Ian Chuang, Claire Tomlin
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle stellen einen vielversprechenden Ansatz zur Realisierung von generalistischen, verkörperten Agenten dar, die sich schnell an neue Aufgaben, Modalitäten und Umgebungen anpassen können. Allerdings bleiben Methoden zur Interpretation und Steuerung von VLA-Modellen weit hinter klassischen Robotik-Pipelines zurück, die auf expliziten Modellen von Kinematik, Dynamik und Regelung basieren. Dieser Mangel an mechanistischem Verständnis ist eine zentrale Herausforderung für den Einsatz gelernten Verhaltens in der realen Robotik, wo Robustheit und Erklärbarkeit entscheidend sind. Angeregt durch Fortschritte in der mechanistischen Interpretierbarkeit großer Sprachmodelle, führen wir das erste Framework zur Interpretation und Steuerung von VLA-Modellen über ihre internen Repräsentationen ein, das eine direkte Intervention im Modellverhalten zur Inferenzzeit ermöglicht. Wir projizieren Feedforward-Aktivierungen innerhalb von Transformer-Schichten auf die Token-Einbettungsbasis und identifizieren spärliche semantische Richtungen – wie Geschwindigkeit und Richtung –, die kausal mit der Aktionsauswahl verknüpft sind. Aufbauend auf diesen Erkenntnissen präsentieren wir eine allgemeine Methode zur Aktivierungssteuerung, die das Verhalten in Echtzeit moduliert, ohne Feinabstimmung, Belohnungssignale oder Interaktion mit der Umgebung. Wir evaluieren diese Methode an zwei kürzlich veröffentlichten Open-Source-VLA-Modellen, Pi0 und OpenVLA, und demonstrieren eine Null-Shot-Verhaltenskontrolle in der Simulation (LIBERO) sowie auf einem physischen Roboter (UR5). Diese Arbeit zeigt, dass interpretierbare Komponenten verkörperter VLA-Modelle systematisch zur Steuerung genutzt werden können – und etabliert damit ein neues Paradigma für transparente und steuerbare Foundation-Modelle in der Robotik.
English
Vision-Language-Action (VLA) models are a promising path to realizing
generalist embodied agents that can quickly adapt to new tasks, modalities, and
environments. However, methods for interpreting and steering VLAs fall far
short of classical robotics pipelines, which are grounded in explicit models of
kinematics, dynamics, and control. This lack of mechanistic insight is a
central challenge for deploying learned policies in real-world robotics, where
robustness and explainability are critical. Motivated by advances in
mechanistic interpretability for large language models, we introduce the first
framework for interpreting and steering VLAs via their internal
representations, enabling direct intervention in model behavior at inference
time. We project feedforward activations within transformer layers onto the
token embedding basis, identifying sparse semantic directions - such as speed
and direction - that are causally linked to action selection. Leveraging these
findings, we introduce a general-purpose activation steering method that
modulates behavior in real time, without fine-tuning, reward signals, or
environment interaction. We evaluate this method on two recent open-source
VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in
simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that
interpretable components of embodied VLAs can be systematically harnessed for
control - establishing a new paradigm for transparent and steerable foundation
models in robotics.