비전-언어-행동 모델의 조종을 위한 기계론적 해석성
Mechanistic interpretability for steering vision-language-action models
August 30, 2025
저자: Bear Häon, Kaylene Stocking, Ian Chuang, Claire Tomlin
cs.AI
초록
비전-언어-행동(Vision-Language-Action, VLA) 모델은 새로운 작업, 양식 및 환경에 빠르게 적응할 수 있는 범용 구현 에이전트를 실현하기 위한 유망한 접근법입니다. 그러나 VLA를 해석하고 조종하는 방법은 기존의 로봇공학 파이프라인에 비해 크게 뒤처져 있습니다. 기존 로봇공학 파이프라인은 운동학, 동역학 및 제어에 대한 명시적 모델에 기반을 두고 있습니다. 이러한 기계적 통찰력의 부족은 강건성과 설명 가능성이 중요한 실제 로봇공학에서 학습된 정책을 배포하는 데 있어 주요한 과제입니다. 대규모 언어 모델에 대한 기계적 해석 가능성의 발전에 영감을 받아, 우리는 VLA의 내부 표현을 통해 이를 해석하고 조종하는 최초의 프레임워크를 소개합니다. 이 프레임워크는 추론 시점에 모델 행동에 직접 개입할 수 있게 합니다. 우리는 트랜스포머 계층 내의 순방향 활성화를 토큰 임베딩 기저에 투영하여 속도와 방향과 같은 희소한 의미론적 방향을 식별합니다. 이러한 발견을 활용하여, 우리는 실시간으로 행동을 조절하는 일반적인 활성화 조종 방법을 소개합니다. 이 방법은 미세 조정, 보상 신호 또는 환경 상호작용 없이도 작동합니다. 우리는 이 방법을 최근 공개된 두 개의 VLA, Pi0와 OpenVLA에 대해 평가하고, 시뮬레이션(LIBERO)과 실제 로봇(UR5)에서의 제로샷 행동 제어를 입증합니다. 이 연구는 구현된 VLA의 해석 가능한 구성 요소가 체계적으로 제어에 활용될 수 있음을 보여줌으로써, 로봇공학에서 투명하고 조종 가능한 기초 모델을 위한 새로운 패러다임을 확립합니다.
English
Vision-Language-Action (VLA) models are a promising path to realizing
generalist embodied agents that can quickly adapt to new tasks, modalities, and
environments. However, methods for interpreting and steering VLAs fall far
short of classical robotics pipelines, which are grounded in explicit models of
kinematics, dynamics, and control. This lack of mechanistic insight is a
central challenge for deploying learned policies in real-world robotics, where
robustness and explainability are critical. Motivated by advances in
mechanistic interpretability for large language models, we introduce the first
framework for interpreting and steering VLAs via their internal
representations, enabling direct intervention in model behavior at inference
time. We project feedforward activations within transformer layers onto the
token embedding basis, identifying sparse semantic directions - such as speed
and direction - that are causally linked to action selection. Leveraging these
findings, we introduce a general-purpose activation steering method that
modulates behavior in real time, without fine-tuning, reward signals, or
environment interaction. We evaluate this method on two recent open-source
VLAs, Pi0 and OpenVLA, and demonstrate zero-shot behavioral control in
simulation (LIBERO) and on a physical robot (UR5). This work demonstrates that
interpretable components of embodied VLAs can be systematically harnessed for
control - establishing a new paradigm for transparent and steerable foundation
models in robotics.