Piloto Mundial: Guiando Modelos de Visão-Linguagem-Ação com Priores de Ação do Mundo

Resumo

Modelos Visão-Linguagem-Ação (VLA) herdam a fundamentação semântica de pré-treinamentos em grande escala e apresentam desempenho competente em tarefas de manipulação dentro da distribuição. Essa fundamentação, contudo, é construída com pares estáticos de imagem-texto, enquanto a manipulação é um processo contínuo e rico em contato, cujas dinâmicas esse pré-treinamento não consegue capturar. Apresentamos o World Pilot, uma estrutura VLA que aumenta a política com priores de um Modelo Mundo-Ação (WAM), roteados para a cadeia de decisão por meio de duas vias complementares. O Direcionamento Latente condiciona a camada de percepção a um latente de evolução da cena, e o Direcionamento de Ação fornece uma trajetória antecipada como um prior de movimento ao gerador de ações. Juntos, os dois priores equipam o VLA com uma visão antecipada da cena e uma dica de movimento em nível de trajetória, além de seu condicionamento semântico, e o prior de evolução da cena permanece eficaz mesmo quando fornecido por um modelo mundial pré-treinado em vídeo que não foi pós-treinado em ação. O World Pilot atinge uma Taxa de Sucesso Total de 84,7% no benchmark zero-shot fora da distribuição (OOD) LIBERO-Plus, além da maior taxa de sucesso em todos os cenários reais de robôs em quatro tarefas de manipulação, com as maiores margens sob mudanças de ponto de vista, geometria, estado deformável e pose. Site do projeto: https://world-pilot.github.io/

English

Vision-Language-Action (VLA) models inherit semantic grounding from large-scale pretraining and perform competently across in-distribution manipulation tasks. This grounding, however, is built on static image-text pairs, whereas manipulation is a continuous, contact-rich process whose dynamics this pretraining cannot capture. We present World Pilot, a VLA framework that augments the policy with priors from a World-Action Model (WAM), routed into the decision chain through two complementary pathways. Latent Steering conditions the perception layer on a scene-evolution latent, and Action Steering supplies an anticipated trajectory as a motion prior to the action generator. Together the two priors equip the VLA with an anticipated view of the scene and a trajectory-level motion hint alongside its semantic conditioning, and the scene-evolution prior remains effective even when supplied by a video-pretrained world model that has not been action-post-trained. World Pilot attains a state-of-the-art Total success rate of 84.7% on the LIBERO-Plus zero-shot OOD benchmark and the highest success rate on every real-robot setting across four manipulation tasks, with the largest margins under shifts in viewpoint, geometry, deformable state, and pose. Project Website: https://world-pilot.github.io/