Interprétabilité mécaniste pour le pilotage des modèles vision-langage-action

papers.abstract

Les modèles Vision-Langage-Action (VLA) représentent une voie prometteuse pour la réalisation d’agents incarnés généralistes capables de s’adapter rapidement à de nouvelles tâches, modalités et environnements. Cependant, les méthodes d’interprétation et de pilotage des VLA restent loin derrière les pipelines classiques de robotique, qui s’appuient sur des modèles explicites de cinématique, de dynamique et de contrôle. Ce manque de compréhension mécaniste constitue un défi majeur pour le déploiement de politiques apprises dans la robotique réelle, où la robustesse et l’explicabilité sont essentielles. Inspirés par les avancées en interprétabilité mécaniste des grands modèles de langage, nous introduisons le premier cadre d’interprétation et de pilotage des VLA via leurs représentations internes, permettant une intervention directe sur le comportement du modèle au moment de l’inférence. Nous projetons les activations feedforward au sein des couches de transformeurs sur la base d’embeddings de tokens, identifiant des directions sémantiques clairsemées – telles que la vitesse et la direction – qui sont causalement liées à la sélection d’actions. En exploitant ces résultats, nous proposons une méthode de pilotage des activations à usage général qui module le comportement en temps réel, sans nécessiter de fine-tuning, de signaux de récompense ou d’interaction avec l’environnement. Nous évaluons cette méthode sur deux VLA open-source récents, Pi0 et OpenVLA, et démontrons un contrôle comportemental zero-shot en simulation (LIBERO) et sur un robot physique (UR5). Ce travail montre que les composants interprétables des VLA incarnés peuvent être systématiquement exploités pour le contrôle – établissant un nouveau paradigme pour des modèles de fondation transparents et pilotables en robotique.

English

Vision-Language-Action (VLA) models are a promising path to realizing generalist embodied agents that can quickly adapt to new tasks, modalities, and environments. However, methods for interpreting and steering VLAs fall far short of classical robotics pipelines, which are grounded in explicit models of kinematics, dynamics, and control. This lack of mechanistic insight is a central challenge for deploying learned policies in real-world robotics, where robustness and explainability are critical. Motivated by advances in mechanistic interpretability for large language models, we introduce the first framework for interpreting and steering VLAs via their internal representations, enabling direct intervention in model behavior at inference time. We project feedforward activations within transformer layers onto the token embedding basis, identifying sparse semantic directions - such as speed and direction - that are causally linked to action selection. Leveraging these findings, we introduce a general-purpose activation steering method that modulates behavior in real time, without fine-tuning, reward signals, or environment interaction. We evaluate this method on two recent open-source VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that interpretable components of embodied VLAs can be systematically harnessed for control - establishing a new paradigm for transparent and steerable foundation models in robotics.

Interprétabilité mécaniste pour le pilotage des modèles vision-langage-action

Mechanistic interpretability for steering vision-language-action models

papers.abstract

Support