ChatPaper.aiChatPaper

VLS: Direccionamiento de Políticas de Robots Preentrenados mediante Modelos de Visión-Lenguaje

VLS: Steering Pretrained Robot Policies via Vision-Language Models

February 3, 2026
Autores: Shuo Liu, Ishneet Sukhvinder Singh, Yiqing Xu, Jiafei Duan, Ranjay Krishna
cs.AI

Resumen

¿Por qué fallan las políticas de difusión o de correspondencia de flujos preentrenadas cuando la misma tarea se realiza cerca de un obstáculo, sobre una superficie de apoyo desplazada o en medio de un desorden moderado? Estos fallos rara vez reflejan la falta de habilidades motoras; en cambio, exponen una limitación del aprendizaje por imitación bajo cambios entre entrenamiento y prueba, donde la generación de acciones está estrechamente acoplada a configuraciones espaciales y especificaciones de tarea específicas del entrenamiento. Reentrenar o ajustar finamente para abordar estos fallos es costoso y conceptualmente desalineado, ya que los comportamientos requeridos ya existen pero no pueden adaptarse selectivamente durante la prueba. Proponemos Vision-Language Steering (VLS), un marco libre de entrenamiento para la adaptación en tiempo de inferencia de políticas generativas robóticas congeladas. VLS trata la adaptación como un problema de control en tiempo de inferencia, dirigiendo el proceso de muestreo de una política preentrenada de difusión o correspondencia de flujos en respuesta a entradas de observación-lenguaje fuera de distribución sin modificar los parámetros de la política. Al aprovechar los modelos de visión y lenguaje para sintetizar funciones de recompensa diferenciables con respecto a la trayectoria, VLS guía la eliminación de ruido hacia trayectorias de acción que satisfacen los requisitos espaciales y de tarea en tiempo de prueba. En evaluaciones tanto en simulación como en el mundo real, VLS supera consistentemente a métodos de dirección previos, logrando una mejora del 31% en CALVIN y una ganancia del 13% en LIBERO-PRO. El despliegue en el mundo real en un robot Franka demuestra además una adaptación robusta en tiempo de inferencia bajo cambios espaciales y semánticos durante la prueba. Página del proyecto: https://vision-language-steering.github.io/webpage/
English
Why do pretrained diffusion or flow-matching policies fail when the same task is performed near an obstacle, on a shifted support surface, or amid mild clutter? Such failures rarely reflect missing motor skills; instead, they expose a limitation of imitation learning under train-test shifts, where action generation is tightly coupled to training-specific spatial configurations and task specifications. Retraining or fine-tuning to address these failures is costly and conceptually misaligned, as the required behaviors already exist but cannot be selectively adapted at test time. We propose Vision-Language Steering (VLS), a training-free framework for inference-time adaptation of frozen generative robot policies. VLS treats adaptation as an inference-time control problem, steering the sampling process of a pretrained diffusion or flow-matching policy in response to out-of-distribution observation-language inputs without modifying policy parameters. By leveraging vision-language models to synthesize trajectory-differentiable reward functions, VLS guides denoising toward action trajectories that satisfy test-time spatial and task requirements. Across simulation and real-world evaluations, VLS consistently outperforms prior steering methods, achieving a 31% improvement on CALVIN and a 13% gain on LIBERO-PRO. Real-world deployment on a Franka robot further demonstrates robust inference-time adaptation under test-time spatial and semantic shifts. Project page: https://vision-language-steering.github.io/webpage/
PDF171February 6, 2026