VLS: Direcionando Políticas de Robô Pré-treinadas por meio de Modelos de Visão e Linguagem
VLS: Steering Pretrained Robot Policies via Vision-Language Models
February 3, 2026
Autores: Shuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna
cs.AI
Resumo
Por que as políticas pré-treinadas de difusão ou correspondência de fluxo falham quando a mesma tarefa é executada perto de um obstáculo, sobre uma superfície de suporte deslocada ou em meio a uma desordem leve? Essas falhas raramente refletem habilidades motoras ausentes; em vez disso, expõem uma limitação da aprendizagem por imitação sob mudanças entre treino e teste, onde a geração de ações está fortemente acoplada a configurações espaciais e especificações de tarefa específicas do treinamento. Retreinar ou fazer ajuste fino para corrigir essas falhas é custoso e conceptualmente desalinhado, uma vez que os comportamentos necessários já existem, mas não podem ser adaptados seletivamente durante o teste. Propomos o Vision-Language Steering (VLS), uma estrutura livre de treinamento para adaptação em tempo de inferência de políticas robóticas generativas congeladas. O VLS trata a adaptação como um problema de controle em tempo de inferência, direcionando o processo de amostragem de uma política pré-treinada de difusão ou correspondência de fluxo em resposta a observações e entradas de linguagem fora da distribuição, sem modificar os parâmetros da política. Ao aproveitar modelos de visão e linguagem para sintetizar funções de recompensa diferenciáveis em relação à trajetória, o VLS guia a remoção de ruído em direção a trajetórias de ação que satisfazem os requisitos espaciais e de tarefa em tempo de teste. Em avaliações em simulação e no mundo real, o VLS supera consistentemente métodos de direcionamento anteriores, alcançando uma melhoria de 31% no CALVIN e um ganho de 13% no LIBERO-PRO. A implantação no mundo real em um robô Franka demonstra ainda uma adaptação robusta em tempo de inferência sob mudanças espaciais e semânticas durante o teste. Página do projeto: https://vision-language-steering.github.io/webpage/
English
Why do pretrained diffusion or flow-matching policies fail when the same task is performed near an obstacle, on a shifted support surface, or amid mild clutter? Such failures rarely reflect missing motor skills; instead, they expose a limitation of imitation learning under train-test shifts, where action generation is tightly coupled to training-specific spatial configurations and task specifications. Retraining or fine-tuning to address these failures is costly and conceptually misaligned, as the required behaviors already exist but cannot be selectively adapted at test time. We propose Vision-Language Steering (VLS), a training-free framework for inference-time adaptation of frozen generative robot policies. VLS treats adaptation as an inference-time control problem, steering the sampling process of a pretrained diffusion or flow-matching policy in response to out-of-distribution observation-language inputs without modifying policy parameters. By leveraging vision-language models to synthesize trajectory-differentiable reward functions, VLS guides denoising toward action trajectories that satisfy test-time spatial and task requirements. Across simulation and real-world evaluations, VLS consistently outperforms prior steering methods, achieving a 31% improvement on CALVIN and a 13% gain on LIBERO-PRO. Real-world deployment on a Franka robot further demonstrates robust inference-time adaptation under test-time spatial and semantic shifts. Project page: https://vision-language-steering.github.io/webpage/