ChatPaper.aiChatPaper

VLS : Pilotage de politiques de robot préentraînées via des modèles vision-langage

VLS: Steering Pretrained Robot Policies via Vision-Language Models

February 3, 2026
papers.authors: Shuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna
cs.AI

papers.abstract

Pourquoi les politiques préentraînées par diffusion ou appariement de flux échouent-elles lorsque la même tâche est exécutée près d'un obstacle, sur une surface de support décalée ou au milieu d'un encombrement modéré ? Ces échecs reflètent rarement un manque de compétences motrices ; ils révèlent plutôt une limitation de l'apprentissage par imitation face à des décalages entre entraînement et test, où la génération d'actions est étroitement couplée à des configurations spatiales et des spécifications de tâches propres à l'entraînement. Le réentraînement ou le réglage fin pour résoudre ces échecs est coûteux et conceptuellement inadapté, car les comportements requis existent déjà mais ne peuvent pas être adaptés de manière sélective au moment du test. Nous proposons Vision-Language Steering (VLS), un cadre sans entraînement pour l'adaptation à l'inférence de politiques robotiques génératives figées. VLS traite l'adaptation comme un problème de contrôle à l'inférence, orientant le processus d'échantillonnage d'une politique préentraînée par diffusion ou appariement de flux en réponse à des observations et descriptions linguistiques hors distribution, sans modifier les paramètres de la politique. En exploitant des modèles vision-langage pour synthétiser des fonctions de récompense différenciables par rapport à la trajectoire, VLS guide le débruitage vers des trajectoires d'actions qui satisfont aux exigences spatiales et de tâche au moment du test. Lors d'évaluations en simulation et dans le monde réel, VLS surpasse constamment les méthodes d'orientation antérieures, avec une amélioration de 31 % sur CALVIN et un gain de 13 % sur LIBERO-PRO. Le déploiement réel sur un robot Franka démontre en outre une adaptation robuste à l'inférence face à des décalages spatiaux et sémantiques lors des tests. Page du projet : https://vision-language-steering.github.io/webpage/
English
Why do pretrained diffusion or flow-matching policies fail when the same task is performed near an obstacle, on a shifted support surface, or amid mild clutter? Such failures rarely reflect missing motor skills; instead, they expose a limitation of imitation learning under train-test shifts, where action generation is tightly coupled to training-specific spatial configurations and task specifications. Retraining or fine-tuning to address these failures is costly and conceptually misaligned, as the required behaviors already exist but cannot be selectively adapted at test time. We propose Vision-Language Steering (VLS), a training-free framework for inference-time adaptation of frozen generative robot policies. VLS treats adaptation as an inference-time control problem, steering the sampling process of a pretrained diffusion or flow-matching policy in response to out-of-distribution observation-language inputs without modifying policy parameters. By leveraging vision-language models to synthesize trajectory-differentiable reward functions, VLS guides denoising toward action trajectories that satisfy test-time spatial and task requirements. Across simulation and real-world evaluations, VLS consistently outperforms prior steering methods, achieving a 31% improvement on CALVIN and a 13% gain on LIBERO-PRO. Real-world deployment on a Franka robot further demonstrates robust inference-time adaptation under test-time spatial and semantic shifts. Project page: https://vision-language-steering.github.io/webpage/
PDF171February 6, 2026