Mechanistische interpreteerbaarheid voor het sturen van visie-taal-actie-modellen
Mechanistic interpretability for steering vision-language-action models
August 30, 2025
Auteurs: Bear Häon, Kaylene Stocking, Ian Chuang, Claire Tomlin
cs.AI
Samenvatting
Vision-Language-Action (VLA)-modellen vormen een veelbelovende weg naar het realiseren van algemene, belichaamde agents die zich snel kunnen aanpassen aan nieuwe taken, modaliteiten en omgevingen. Methoden voor het interpreteren en sturen van VLA's blijven echter ver achter bij klassieke robotica-pipelines, die gebaseerd zijn op expliciete modellen van kinematica, dynamica en controle. Dit gebrek aan mechanistisch inzicht is een centrale uitdaging bij het inzetten van geleerde beleidsregels in real-world robotica, waar robuustheid en verklaarbaarheid cruciaal zijn. Geïnspireerd door vooruitgang in mechanistische interpreteerbaarheid voor grote taalmodellen, introduceren we het eerste raamwerk voor het interpreteren en sturen van VLA's via hun interne representaties, waardoor directe interventie in modelgedrag tijdens inferentie mogelijk wordt. We projecteren feedforward-activaties binnen transformer-lagen op de token-embeddingbasis, waarbij we spaarzame semantische richtingen identificeren - zoals snelheid en richting - die causaal verbonden zijn aan actieselectie. Gebruikmakend van deze bevindingen, introduceren we een algemene activatie-stuurmethode die gedrag in realtime moduleert, zonder fine-tuning, beloningssignalen of omgevingsinteractie. We evalueren deze methode op twee recente open-source VLA's, Pi0 en OpenVLA, en demonstreren zero-shot gedragscontrole in simulatie (LIBERO) en op een fysieke robot (UR5). Dit werk toont aan dat interpreteerbare componenten van belichaamde VLA's systematisch kunnen worden benut voor controle - wat een nieuw paradigma vestigt voor transparante en stuurbare foundation-modellen in robotica.
English
Vision-Language-Action (VLA) models are a promising path to realizing
generalist embodied agents that can quickly adapt to new tasks, modalities, and
environments. However, methods for interpreting and steering VLAs fall far
short of classical robotics pipelines, which are grounded in explicit models of
kinematics, dynamics, and control. This lack of mechanistic insight is a
central challenge for deploying learned policies in real-world robotics, where
robustness and explainability are critical. Motivated by advances in
mechanistic interpretability for large language models, we introduce the first
framework for interpreting and steering VLAs via their internal
representations, enabling direct intervention in model behavior at inference
time. We project feedforward activations within transformer layers onto the
token embedding basis, identifying sparse semantic directions - such as speed
and direction - that are causally linked to action selection. Leveraging these
findings, we introduce a general-purpose activation steering method that
modulates behavior in real time, without fine-tuning, reward signals, or
environment interaction. We evaluate this method on two recent open-source
VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in
simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that
interpretable components of embodied VLAs can be systematically harnessed for
control - establishing a new paradigm for transparent and steerable foundation
models in robotics.