ChatPaper.aiChatPaper

VLS: Sturen van vooraf getrainde robotbeleidsregels via Vision-Language Modellen

VLS: Steering Pretrained Robot Policies via Vision-Language Models

February 3, 2026
Auteurs: Shuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna
cs.AI

Samenvatting

Waarom falen vooraf getrainde diffusie- of flow-matching-beleidsmodellen wanneer dezelfde taak wordt uitgevoerd nabij een obstakel, op een verschoven ondersteuningsvlak of te midden van lichte rommel? Dergelijke fouten weerspiegelen zelden ontbrekende motorische vaardigheden; in plaats daarvan tonen ze een beperking aan van imitation learning onder train-test shifts, waarbij actiegeneratie sterk gekoppeld is aan trainingsspecifieke ruimtelijke configuraties en taakspecificaties. Her trainen of fine-tunen om deze fouten aan te pakken is kostbaar en conceptueel niet in lijn, omdat de vereiste gedragingen al bestaan maar niet selectief kunnen worden aangepast tijdens de testfase. Wij stellen Vision-Language Steering (VLS) voor, een trainingsvrij raamwerk voor aanpassing tijdens de inferentie van bevroren generatieve robotbeleidsmodellen. VLS behandelt aanpassing als een controleprobleem tijdens de inferentie, waarbij het het bemonsteringsproces van een vooraf getraind diffusie- of flow-matching-beleid stuurt als reactie op out-of-distribution observatie-taalinputs zonder de beleidsparameters aan te passen. Door gebruik te maken van vision-language modellen om traject-differentieerbare beloningsfuncties te synthetiseren, leidt VLS de denoisering naar actietrajecten die voldoen aan ruimtelijke en taakvereisten tijdens de testfase. In zowel simulatie- als evaluaties in de echte wereld presteert VLS consistent beter dan eerdere stuurmethoden, met een verbetering van 31% op CALVIN en een winst van 13% op LIBERO-PRO. Implementatie in de echte wereld op een Franka-robot toont verder robuuste aanpassing tijdens de inferentie aan onder ruimtelijke en semantische verschuivingen tijdens de testfase. Projectpagina: https://vision-language-steering.github.io/webpage/
English
Why do pretrained diffusion or flow-matching policies fail when the same task is performed near an obstacle, on a shifted support surface, or amid mild clutter? Such failures rarely reflect missing motor skills; instead, they expose a limitation of imitation learning under train-test shifts, where action generation is tightly coupled to training-specific spatial configurations and task specifications. Retraining or fine-tuning to address these failures is costly and conceptually misaligned, as the required behaviors already exist but cannot be selectively adapted at test time. We propose Vision-Language Steering (VLS), a training-free framework for inference-time adaptation of frozen generative robot policies. VLS treats adaptation as an inference-time control problem, steering the sampling process of a pretrained diffusion or flow-matching policy in response to out-of-distribution observation-language inputs without modifying policy parameters. By leveraging vision-language models to synthesize trajectory-differentiable reward functions, VLS guides denoising toward action trajectories that satisfy test-time spatial and task requirements. Across simulation and real-world evaluations, VLS consistently outperforms prior steering methods, achieving a 31% improvement on CALVIN and a 13% gain on LIBERO-PRO. Real-world deployment on a Franka robot further demonstrates robust inference-time adaptation under test-time spatial and semantic shifts. Project page: https://vision-language-steering.github.io/webpage/
PDF171February 6, 2026