World Pilot: Guiando Modelos de Visión-Lenguaje-Acción con Prioris de Acción del Mundo

Resumen

Los modelos Visión-Lenguaje-Acción (VLA) heredan un anclaje semántico de preentrenamientos a gran escala y se desempeñan competentemente en tareas de manipulación dentro de la distribución. Sin embargo, este anclaje se basa en pares estáticos de imagen y texto, mientras que la manipulación es un proceso continuo y rico en contacto cuya dinámica dicho preentrenamiento no puede capturar. Presentamos World Pilot, un marco VLA que aumenta la política con prioridades provenientes de un Modelo Mundo-Acción (WAM), enrutadas en la cadena de decisión a través de dos vías complementarias. El Condicionamiento Latente condiciona la capa de percepción a un latente de evolución de la escena, y el Condicionamiento de Acción proporciona una trayectoria anticipada como prioridad de movimiento al generador de acciones. Juntas, las dos prioridades dotan al VLA de una vista anticipada de la escena y una indicación de movimiento a nivel de trayectoria junto con su condicionamiento semántico, y la prioridad de evolución de la escena sigue siendo efectiva incluso cuando es proporcionada por un modelo de mundo preentrenado en video que no ha sido post-entrenado en acción. World Pilot alcanza una tasa de éxito total del 84.7% en el benchmark LIBERO-Plus de generalización zero-shot fuera de distribución, y la tasa de éxito más alta en cada entorno robótico real en cuatro tareas de manipulación, con los mayores márgenes bajo cambios de punto de vista, geometría, estado deformable y pose. Sitio web del proyecto: https://world-pilot.github.io/

English

Vision-Language-Action (VLA) models inherit semantic grounding from large-scale pretraining and perform competently across in-distribution manipulation tasks. This grounding, however, is built on static image-text pairs, whereas manipulation is a continuous, contact-rich process whose dynamics this pretraining cannot capture. We present World Pilot, a VLA framework that augments the policy with priors from a World-Action Model (WAM), routed into the decision chain through two complementary pathways. Latent Steering conditions the perception layer on a scene-evolution latent, and Action Steering supplies an anticipated trajectory as a motion prior to the action generator. Together the two priors equip the VLA with an anticipated view of the scene and a trajectory-level motion hint alongside its semantic conditioning, and the scene-evolution prior remains effective even when supplied by a video-pretrained world model that has not been action-post-trained. World Pilot attains a state-of-the-art Total success rate of 84.7% on the LIBERO-Plus zero-shot OOD benchmark and the highest success rate on every real-robot setting across four manipulation tasks, with the largest margins under shifts in viewpoint, geometry, deformable state, and pose. Project Website: https://world-pilot.github.io/