Interpretabilidad mecanicista para la guía de modelos visión-lenguaje-acción
Mechanistic interpretability for steering vision-language-action models
August 30, 2025
Autores: Bear Häon, Kaylene Stocking, Ian Chuang, Claire Tomlin
cs.AI
Resumen
Los modelos Visión-Lenguaje-Acción (VLA) representan una vía prometedora para lograr agentes corporizados generalistas capaces de adaptarse rápidamente a nuevas tareas, modalidades y entornos. Sin embargo, los métodos para interpretar y dirigir los VLA están muy por detrás de las pipelines clásicas de robótica, que se basan en modelos explícitos de cinemática, dinámica y control. Esta falta de comprensión mecanicista es un desafío central para implementar políticas aprendidas en robótica del mundo real, donde la robustez y la explicabilidad son críticas. Motivados por los avances en interpretabilidad mecanicista para modelos de lenguaje grandes, introducimos el primer marco para interpretar y dirigir los VLA a través de sus representaciones internas, permitiendo la intervención directa en el comportamiento del modelo durante la inferencia. Proyectamos las activaciones feedforward dentro de las capas del transformador sobre la base de incrustación de tokens, identificando direcciones semánticas dispersas -como velocidad y dirección- que están causalmente vinculadas a la selección de acciones. Aprovechando estos hallazgos, introducimos un método de dirección de activaciones de propósito general que modula el comportamiento en tiempo real, sin necesidad de ajuste fino, señales de recompensa o interacción con el entorno. Evaluamos este método en dos VLA de código abierto recientes, Pi0 y OpenVLA, y demostramos control de comportamiento zero-shot en simulación (LIBERO) y en un robot físico (UR5). Este trabajo demuestra que los componentes interpretables de los VLA corporizados pueden ser aprovechados sistemáticamente para el control, estableciendo un nuevo paradigma para modelos fundacionales transparentes y dirigibles en robótica.
English
Vision-Language-Action (VLA) models are a promising path to realizing
generalist embodied agents that can quickly adapt to new tasks, modalities, and
environments. However, methods for interpreting and steering VLAs fall far
short of classical robotics pipelines, which are grounded in explicit models of
kinematics, dynamics, and control. This lack of mechanistic insight is a
central challenge for deploying learned policies in real-world robotics, where
robustness and explainability are critical. Motivated by advances in
mechanistic interpretability for large language models, we introduce the first
framework for interpreting and steering VLAs via their internal
representations, enabling direct intervention in model behavior at inference
time. We project feedforward activations within transformer layers onto the
token embedding basis, identifying sparse semantic directions - such as speed
and direction - that are causally linked to action selection. Leveraging these
findings, we introduce a general-purpose activation steering method that
modulates behavior in real time, without fine-tuning, reward signals, or
environment interaction. We evaluate this method on two recent open-source
VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in
simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that
interpretable components of embodied VLAs can be systematically harnessed for
control - establishing a new paradigm for transparent and steerable foundation
models in robotics.