ChatPaper.aiChatPaper

Interpretazione meccanicistica per il controllo di modelli visione-linguaggio-azione

Mechanistic interpretability for steering vision-language-action models

August 30, 2025
Autori: Bear Häon, Kaylene Stocking, Ian Chuang, Claire Tomlin
cs.AI

Abstract

I modelli Vision-Language-Action (VLA) rappresentano una promettente direzione per realizzare agenti embodied generalisti in grado di adattarsi rapidamente a nuovi compiti, modalità e ambienti. Tuttavia, i metodi per interpretare e guidare i VLA sono ancora lontani dalle pipeline robotiche classiche, che si basano su modelli espliciti di cinematica, dinamica e controllo. Questa mancanza di comprensione meccanicistica costituisce una sfida centrale per il dispiegamento di politiche apprese nella robotica del mondo reale, dove robustezza e spiegabilità sono critiche. Ispirati dai progressi nell'interpretabilità meccanicistica dei grandi modelli linguistici, introduciamo il primo framework per interpretare e guidare i VLA attraverso le loro rappresentazioni interne, consentendo un intervento diretto sul comportamento del modello durante l'inferenza. Proiettiamo le attivazioni feedforward all'interno dei livelli transformer sulla base di embedding dei token, identificando direzioni semantiche sparse - come velocità e direzione - che sono causalmente collegate alla selezione delle azioni. Sfruttando queste scoperte, introduciamo un metodo generale di steering delle attivazioni che modula il comportamento in tempo reale, senza fine-tuning, segnali di ricompensa o interazione con l'ambiente. Valutiamo questo metodo su due recenti VLA open-source, Pi0 e OpenVLA, e dimostriamo il controllo comportamentale zero-shot in simulazione (LIBERO) e su un robot fisico (UR5). Questo lavoro dimostra che i componenti interpretabili dei VLA embodied possono essere sistematicamente sfruttati per il controllo, stabilendo un nuovo paradigma per modelli foundation trasparenti e guidabili nella robotica.
English
Vision-Language-Action (VLA) models are a promising path to realizing generalist embodied agents that can quickly adapt to new tasks, modalities, and environments. However, methods for interpreting and steering VLAs fall far short of classical robotics pipelines, which are grounded in explicit models of kinematics, dynamics, and control. This lack of mechanistic insight is a central challenge for deploying learned policies in real-world robotics, where robustness and explainability are critical. Motivated by advances in mechanistic interpretability for large language models, we introduce the first framework for interpreting and steering VLAs via their internal representations, enabling direct intervention in model behavior at inference time. We project feedforward activations within transformer layers onto the token embedding basis, identifying sparse semantic directions - such as speed and direction - that are causally linked to action selection. Leveraging these findings, we introduce a general-purpose activation steering method that modulates behavior in real time, without fine-tuning, reward signals, or environment interaction. We evaluate this method on two recent open-source VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that interpretable components of embodied VLAs can be systematically harnessed for control - establishing a new paradigm for transparent and steerable foundation models in robotics.
PDF22September 9, 2025