VLS: 비전-언어 모델을 통한 사전 학습된 로봇 정책의 제어
VLS: Steering Pretrained Robot Policies via Vision-Language Models
February 3, 2026
저자: Shuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna
cs.AI
초록
사전 훈련된 확산 또는 흐름 정합 정책이 동일한 작업이 장애물 근처에서, 이동된 지지면 위에서, 또는 약간의 주변 물체 속에서 수행될 때 실패하는 이유는 무엇일까? 이러한 실패는 대부분 운동 기술의 부재를 반영하지 않는다. 오히려 이는 훈련-테스트 차이 하에서의 모방 학습 한계를 드러내며, 행동 생성이 훈련 특정 공간 구성 및 작업 명세에 긴밀하게 결합되어 있기 때문이다. 이러한 실패를 해결하기 위한 재훈련이나 미세 조정은 비용이 많이 들 뿐만 아니라 개념적으로도 일치하지 않는다. 필요한 행동들은 이미 존재하지만 테스트 시점에 선택적으로 적용할 수 없기 때문이다. 우리는 고정된 생성형 로봇 정책의 추론 시점 적응을 위한 훈련 불필요 프레임워크인 Vision-Language Steering(VLS)을 제안한다. VLS는 적응을 추론 시점 제어 문제로 취급하여, 정책 매개변수를 수정하지 않고 분포 외 관측-언어 입력에 대응하여 사전 훈련된 확산 또는 흐름 정합 정책의 샘플링 과정을 조종한다. VLS는 시각-언어 모델을 활용하여 궤적 미분 가능 보상 함수를 합성함으로써, 테스트 시점의 공간 및 작업 요구사항을 충족하는 행동 궤적으로의 노이즈 제거 과정을 유도한다. 시뮬레이션과 실제 환경 평가 전반에 걸쳐 VLS는 기존 조종 방법들을 일관되게 능가하며, CALVIN에서 31%, LIBERO-PRO에서 13%의 성능 향상을 달성했다. Franka 로봇에서의 실제 환경 배치는 테스트 시점 공간 및 의미론적 변화 하에서도 강력한 추론 시점 적응 능력을 추가로 입증한다. 프로젝트 페이지: https://vision-language-steering.github.io/webpage/
English
Why do pretrained diffusion or flow-matching policies fail when the same task is performed near an obstacle, on a shifted support surface, or amid mild clutter? Such failures rarely reflect missing motor skills; instead, they expose a limitation of imitation learning under train-test shifts, where action generation is tightly coupled to training-specific spatial configurations and task specifications. Retraining or fine-tuning to address these failures is costly and conceptually misaligned, as the required behaviors already exist but cannot be selectively adapted at test time. We propose Vision-Language Steering (VLS), a training-free framework for inference-time adaptation of frozen generative robot policies. VLS treats adaptation as an inference-time control problem, steering the sampling process of a pretrained diffusion or flow-matching policy in response to out-of-distribution observation-language inputs without modifying policy parameters. By leveraging vision-language models to synthesize trajectory-differentiable reward functions, VLS guides denoising toward action trajectories that satisfy test-time spatial and task requirements. Across simulation and real-world evaluations, VLS consistently outperforms prior steering methods, achieving a 31% improvement on CALVIN and a 13% gain on LIBERO-PRO. Real-world deployment on a Franka robot further demonstrates robust inference-time adaptation under test-time spatial and semantic shifts. Project page: https://vision-language-steering.github.io/webpage/