ChatPaper.aiChatPaper

VLS: Lenkung vortrainierter Roboterpolitiken mittels Vision-Sprach-Modellen

VLS: Steering Pretrained Robot Policies via Vision-Language Models

February 3, 2026
papers.authors: Shuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna
cs.AI

papers.abstract

Warum versagen vortrainierte Diffusions- oder Flow-Matching-Policies, wenn dieselbe Aufgabe in der Nähe eines Hindernisses, auf einer verschobenen Stützfläche oder inmitten leichter Unordnung ausgeführt wird? Solche Fehler spiegeln selten fehlende motorische Fähigkeiten wider; stattdessen offenbaren sie eine Limitation von Imitationslernen unter Train-Test-Shifts, bei der die Aktionsgenerierung eng an trainingsspezifische räumliche Konfigurationen und Aufgabenspezifikationen gekoppelt ist. Neu-Training oder Fine-Tuning zur Behebung dieser Fehler ist kostspielig und konzeptionell fehlausgerichtet, da die erforderlichen Verhaltensweisen bereits existieren, aber nicht selektiv zur Testzeit adaptiert werden können. Wir schlagen Vision-Language Steering (VLS) vor, ein trainingsfreies Framework für Inferenzzeit-Adaptation eingefrorener generativer Roboter-Policies. VLS behandelt Adaptation als ein Inferenzzeit-Steuerungsproblem, das den Sampling-Prozess einer vortrainierten Diffusions- oder Flow-Matching-Policy als Reaktion auf Out-of-Distribution-Beobachtungs-Sprache-Eingaben lenkt, ohne Policy-Parameter zu modifizieren. Indem VLS Vision-Language-Modelle nutzt, um trajectory-differenzierbare Reward-Funktionen zu synthetisieren, lenkt es das Denoising hin zu Aktions-Trajektorien, die Testzeit-Anforderungen an räumliche Gegebenheiten und Aufgaben erfüllen. In Simulationen und realen Evaluierungen übertrifft VLS durchgängig frühere Steering-Methoden und erzielt eine 31%ige Verbesserung auf CALVIN und einen 13%igen Zuwachs auf LIBERO-PRO. Der reale Einsatz auf einem Franka-Roboter demonstriert weiterhin robuste Inferenzzeit-Adaptation unter Testzeit-räumlichen und semantischen Shifts. Projektseite: https://vision-language-steering.github.io/webpage/
English
Why do pretrained diffusion or flow-matching policies fail when the same task is performed near an obstacle, on a shifted support surface, or amid mild clutter? Such failures rarely reflect missing motor skills; instead, they expose a limitation of imitation learning under train-test shifts, where action generation is tightly coupled to training-specific spatial configurations and task specifications. Retraining or fine-tuning to address these failures is costly and conceptually misaligned, as the required behaviors already exist but cannot be selectively adapted at test time. We propose Vision-Language Steering (VLS), a training-free framework for inference-time adaptation of frozen generative robot policies. VLS treats adaptation as an inference-time control problem, steering the sampling process of a pretrained diffusion or flow-matching policy in response to out-of-distribution observation-language inputs without modifying policy parameters. By leveraging vision-language models to synthesize trajectory-differentiable reward functions, VLS guides denoising toward action trajectories that satisfy test-time spatial and task requirements. Across simulation and real-world evaluations, VLS consistently outperforms prior steering methods, achieving a 31% improvement on CALVIN and a 13% gain on LIBERO-PRO. Real-world deployment on a Franka robot further demonstrates robust inference-time adaptation under test-time spatial and semantic shifts. Project page: https://vision-language-steering.github.io/webpage/
PDF171February 6, 2026