Interprétabilité mécaniste pour le pilotage des modèles vision-langage-action
Mechanistic interpretability for steering vision-language-action models
August 30, 2025
papers.authors: Bear Häon, Kaylene Stocking, Ian Chuang, Claire Tomlin
cs.AI
papers.abstract
Les modèles Vision-Langage-Action (VLA) représentent une voie prometteuse pour la réalisation d’agents incarnés généralistes capables de s’adapter rapidement à de nouvelles tâches, modalités et environnements. Cependant, les méthodes d’interprétation et de pilotage des VLA restent loin derrière les pipelines classiques de robotique, qui s’appuient sur des modèles explicites de cinématique, de dynamique et de contrôle. Ce manque de compréhension mécaniste constitue un défi majeur pour le déploiement de politiques apprises dans la robotique réelle, où la robustesse et l’explicabilité sont essentielles. Inspirés par les avancées en interprétabilité mécaniste des grands modèles de langage, nous introduisons le premier cadre d’interprétation et de pilotage des VLA via leurs représentations internes, permettant une intervention directe sur le comportement du modèle au moment de l’inférence. Nous projetons les activations feedforward au sein des couches de transformeurs sur la base d’embeddings de tokens, identifiant des directions sémantiques clairsemées – telles que la vitesse et la direction – qui sont causalement liées à la sélection d’actions. En exploitant ces résultats, nous proposons une méthode de pilotage des activations à usage général qui module le comportement en temps réel, sans nécessiter de fine-tuning, de signaux de récompense ou d’interaction avec l’environnement. Nous évaluons cette méthode sur deux VLA open-source récents, Pi0 et OpenVLA, et démontrons un contrôle comportemental zero-shot en simulation (LIBERO) et sur un robot physique (UR5). Ce travail montre que les composants interprétables des VLA incarnés peuvent être systématiquement exploités pour le contrôle – établissant un nouveau paradigme pour des modèles de fondation transparents et pilotables en robotique.
English
Vision-Language-Action (VLA) models are a promising path to realizing
generalist embodied agents that can quickly adapt to new tasks, modalities, and
environments. However, methods for interpreting and steering VLAs fall far
short of classical robotics pipelines, which are grounded in explicit models of
kinematics, dynamics, and control. This lack of mechanistic insight is a
central challenge for deploying learned policies in real-world robotics, where
robustness and explainability are critical. Motivated by advances in
mechanistic interpretability for large language models, we introduce the first
framework for interpreting and steering VLAs via their internal
representations, enabling direct intervention in model behavior at inference
time. We project feedforward activations within transformer layers onto the
token embedding basis, identifying sparse semantic directions - such as speed
and direction - that are causally linked to action selection. Leveraging these
findings, we introduce a general-purpose activation steering method that
modulates behavior in real time, without fine-tuning, reward signals, or
environment interaction. We evaluate this method on two recent open-source
VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in
simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that
interpretable components of embodied VLAs can be systematically harnessed for
control - establishing a new paradigm for transparent and steerable foundation
models in robotics.