VLS: Pilotaggio di Politiche di Robot Pre-addestrate tramite Modelli Visione-Linguaggio

Abstract

Perché le politiche pre-addestrate di diffusione o di flow-matching falliscono quando la stessa attività viene eseguita vicino a un ostacolo, su una superficie di appoggio spostata o in mezzo a un lieve disordine? Questi fallimenti raramente riflettono l'assenza di abilità motorie; invece, rivelano una limitazione dell'apprendimento per imitazione sotto condizioni di disallineamento tra training e test, in cui la generazione delle azioni è strettamente accoppiata a configurazioni spaziali e specifiche dell'attività tipiche del training. Ritrasmettere o effettuare un fine-tuning per affrontare questi fallimenti è costoso e concettualmente disallineato, poiché i comportamenti richiesti esistono già ma non possono essere adattati selettivamente al momento del test. Proponiamo Vision-Language Steering (VLS), un framework che non richiede training per l'adattamento al momento dell'inferenza di politiche generative robotiche congelate. VLS tratta l'adattamento come un problema di controllo al momento dell'inferenza, dirigendo il processo di campionamento di una politica pre-addestrata di diffusione o flow-matching in risposta a input di osservazione-linguaggio fuori distribuzione, senza modificare i parametri della politica. Sfruttando i modelli visione-linguaggio per sintetizzare funzioni di reward differenziabili rispetto alla traiettoria, VLS guida la rimozione del rumore verso traiettorie di azione che soddisfano i requisiti spaziali e dell'attività al momento del test. In valutazioni sia in simulazione che nel mondo reale, VLS supera costantemente i metodi di steering precedenti, ottenendo un miglioramento del 31% su CALVIN e un guadagno del 13% su LIBERO-PRO. La distribuzione nel mondo reale su un robot Franka dimostra ulteriormente un robusto adattamento al momento dell'inferenza sotto condizioni di variazione spaziale e semantica durante il test. Pagina del progetto: https://vision-language-steering.github.io/webpage/

English

Why do pretrained diffusion or flow-matching policies fail when the same task is performed near an obstacle, on a shifted support surface, or amid mild clutter? Such failures rarely reflect missing motor skills; instead, they expose a limitation of imitation learning under train-test shifts, where action generation is tightly coupled to training-specific spatial configurations and task specifications. Retraining or fine-tuning to address these failures is costly and conceptually misaligned, as the required behaviors already exist but cannot be selectively adapted at test time. We propose Vision-Language Steering (VLS), a training-free framework for inference-time adaptation of frozen generative robot policies. VLS treats adaptation as an inference-time control problem, steering the sampling process of a pretrained diffusion or flow-matching policy in response to out-of-distribution observation-language inputs without modifying policy parameters. By leveraging vision-language models to synthesize trajectory-differentiable reward functions, VLS guides denoising toward action trajectories that satisfy test-time spatial and task requirements. Across simulation and real-world evaluations, VLS consistently outperforms prior steering methods, achieving a 31% improvement on CALVIN and a 13% gain on LIBERO-PRO. Real-world deployment on a Franka robot further demonstrates robust inference-time adaptation under test-time spatial and semantic shifts. Project page: https://vision-language-steering.github.io/webpage/

VLS: Pilotaggio di Politiche di Robot Pre-addestrate tramite Modelli Visione-Linguaggio

VLS: Steering Pretrained Robot Policies via Vision-Language Models

Abstract

Support