ChatPaper.aiChatPaper

VLS: 視覚言語モデルによる事前学習済みロボットポリシーの制御

VLS: Steering Pretrained Robot Policies via Vision-Language Models

February 3, 2026
著者: Shuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna
cs.AI

要旨

事前学習済みの拡散モデルやフローマッチング方策が、障害物付近での作業、支持面の変化、あるいは軽度の雑多な環境下で同一のタスクを実行する際に失敗するのはなぜか?こうした失敗は、運動スキルの不足に起因することは稀である。むしろ、学習とテストの条件差(train-test shift)における模倣学習の限界を露呈している。すなわち、行動生成が学習時に特化した空間配置やタスク仕様に強く結びついているのである。これらの失敗を補うための再学習やファインチューニングはコストがかさみ、概念的にも適切ではない。なぜなら、必要な行動は既に存在するにもかかわらず、テスト時に選択的に適応することができないからである。我々は、学習済み生成ロボット方策の推論時適応のための学習不要なフレームワーク「Vision-Language Steering (VLS)」を提案する。VLSは適応を推論時の制御問題と見なし、方策パラメータを変更することなく、分布外の観測-言語入力に応答して、事前学習済み拡散/フローマッチング方策のサンプリング過程を誘導する。視覚言語モデルを活用して軌道微分可能な報酬関数を合成することにより、VLSは、テスト時の空間的・タスク的要件を満たす行動軌道へ向かってノイズ除去過程を導く。シミュレーションおよび実世界での評価を通じて、VLSは従来の誘導手法を一貫して上回り、CALVINでは31%、LIBERO-PROでは13%の性能向上を達成した。Frankaロボットを用いた実世界での展開により、テスト時の空間的・意味的変化下での頑健な推論時適応がさらに実証された。プロジェクトページ: https://vision-language-steering.github.io/webpage/
English
Why do pretrained diffusion or flow-matching policies fail when the same task is performed near an obstacle, on a shifted support surface, or amid mild clutter? Such failures rarely reflect missing motor skills; instead, they expose a limitation of imitation learning under train-test shifts, where action generation is tightly coupled to training-specific spatial configurations and task specifications. Retraining or fine-tuning to address these failures is costly and conceptually misaligned, as the required behaviors already exist but cannot be selectively adapted at test time. We propose Vision-Language Steering (VLS), a training-free framework for inference-time adaptation of frozen generative robot policies. VLS treats adaptation as an inference-time control problem, steering the sampling process of a pretrained diffusion or flow-matching policy in response to out-of-distribution observation-language inputs without modifying policy parameters. By leveraging vision-language models to synthesize trajectory-differentiable reward functions, VLS guides denoising toward action trajectories that satisfy test-time spatial and task requirements. Across simulation and real-world evaluations, VLS consistently outperforms prior steering methods, achieving a 31% improvement on CALVIN and a 13% gain on LIBERO-PRO. Real-world deployment on a Franka robot further demonstrates robust inference-time adaptation under test-time spatial and semantic shifts. Project page: https://vision-language-steering.github.io/webpage/
PDF171February 6, 2026