Interpretabilidad mecanicista para la guía de modelos visión-lenguaje-acción

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) representan una vía prometedora para lograr agentes corporizados generalistas capaces de adaptarse rápidamente a nuevas tareas, modalidades y entornos. Sin embargo, los métodos para interpretar y dirigir los VLA están muy por detrás de las pipelines clásicas de robótica, que se basan en modelos explícitos de cinemática, dinámica y control. Esta falta de comprensión mecanicista es un desafío central para implementar políticas aprendidas en robótica del mundo real, donde la robustez y la explicabilidad son críticas. Motivados por los avances en interpretabilidad mecanicista para modelos de lenguaje grandes, introducimos el primer marco para interpretar y dirigir los VLA a través de sus representaciones internas, permitiendo la intervención directa en el comportamiento del modelo durante la inferencia. Proyectamos las activaciones feedforward dentro de las capas del transformador sobre la base de incrustación de tokens, identificando direcciones semánticas dispersas -como velocidad y dirección- que están causalmente vinculadas a la selección de acciones. Aprovechando estos hallazgos, introducimos un método de dirección de activaciones de propósito general que modula el comportamiento en tiempo real, sin necesidad de ajuste fino, señales de recompensa o interacción con el entorno. Evaluamos este método en dos VLA de código abierto recientes, Pi0 y OpenVLA, y demostramos control de comportamiento zero-shot en simulación (LIBERO) y en un robot físico (UR5). Este trabajo demuestra que los componentes interpretables de los VLA corporizados pueden ser aprovechados sistemáticamente para el control, estableciendo un nuevo paradigma para modelos fundacionales transparentes y dirigibles en robótica.

English

Vision-Language-Action (VLA) models are a promising path to realizing generalist embodied agents that can quickly adapt to new tasks, modalities, and environments. However, methods for interpreting and steering VLAs fall far short of classical robotics pipelines, which are grounded in explicit models of kinematics, dynamics, and control. This lack of mechanistic insight is a central challenge for deploying learned policies in real-world robotics, where robustness and explainability are critical. Motivated by advances in mechanistic interpretability for large language models, we introduce the first framework for interpreting and steering VLAs via their internal representations, enabling direct intervention in model behavior at inference time. We project feedforward activations within transformer layers onto the token embedding basis, identifying sparse semantic directions - such as speed and direction - that are causally linked to action selection. Leveraging these findings, we introduce a general-purpose activation steering method that modulates behavior in real time, without fine-tuning, reward signals, or environment interaction. We evaluate this method on two recent open-source VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that interpretable components of embodied VLAs can be systematically harnessed for control - establishing a new paradigm for transparent and steerable foundation models in robotics.

Interpretabilidad mecanicista para la guía de modelos visión-lenguaje-acción

Mechanistic interpretability for steering vision-language-action models

Resumen

Support