Interpretazione meccanicistica per il controllo di modelli visione-linguaggio-azione
Mechanistic interpretability for steering vision-language-action models
August 30, 2025
Autori: Bear Häon, Kaylene Stocking, Ian Chuang, Claire Tomlin
cs.AI
Abstract
I modelli Vision-Language-Action (VLA) rappresentano una promettente direzione per realizzare agenti embodied generalisti in grado di adattarsi rapidamente a nuovi compiti, modalità e ambienti. Tuttavia, i metodi per interpretare e guidare i VLA sono ancora lontani dalle pipeline robotiche classiche, che si basano su modelli espliciti di cinematica, dinamica e controllo. Questa mancanza di comprensione meccanicistica costituisce una sfida centrale per il dispiegamento di politiche apprese nella robotica del mondo reale, dove robustezza e spiegabilità sono critiche. Ispirati dai progressi nell'interpretabilità meccanicistica dei grandi modelli linguistici, introduciamo il primo framework per interpretare e guidare i VLA attraverso le loro rappresentazioni interne, consentendo un intervento diretto sul comportamento del modello durante l'inferenza. Proiettiamo le attivazioni feedforward all'interno dei livelli transformer sulla base di embedding dei token, identificando direzioni semantiche sparse - come velocità e direzione - che sono causalmente collegate alla selezione delle azioni. Sfruttando queste scoperte, introduciamo un metodo generale di steering delle attivazioni che modula il comportamento in tempo reale, senza fine-tuning, segnali di ricompensa o interazione con l'ambiente. Valutiamo questo metodo su due recenti VLA open-source, Pi0 e OpenVLA, e dimostriamo il controllo comportamentale zero-shot in simulazione (LIBERO) e su un robot fisico (UR5). Questo lavoro dimostra che i componenti interpretabili dei VLA embodied possono essere sistematicamente sfruttati per il controllo, stabilendo un nuovo paradigma per modelli foundation trasparenti e guidabili nella robotica.
English
Vision-Language-Action (VLA) models are a promising path to realizing
generalist embodied agents that can quickly adapt to new tasks, modalities, and
environments. However, methods for interpreting and steering VLAs fall far
short of classical robotics pipelines, which are grounded in explicit models of
kinematics, dynamics, and control. This lack of mechanistic insight is a
central challenge for deploying learned policies in real-world robotics, where
robustness and explainability are critical. Motivated by advances in
mechanistic interpretability for large language models, we introduce the first
framework for interpreting and steering VLAs via their internal
representations, enabling direct intervention in model behavior at inference
time. We project feedforward activations within transformer layers onto the
token embedding basis, identifying sparse semantic directions - such as speed
and direction - that are causally linked to action selection. Leveraging these
findings, we introduce a general-purpose activation steering method that
modulates behavior in real time, without fine-tuning, reward signals, or
environment interaction. We evaluate this method on two recent open-source
VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in
simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that
interpretable components of embodied VLAs can be systematically harnessed for
control - establishing a new paradigm for transparent and steerable foundation
models in robotics.