World Pilot: 세계-행동 사전 정보를 이용한 시각-언어-행동 모델의 방향 제어
World Pilot: Steering Vision-Language-Action Models with World-Action Priors
June 10, 2026
저자: Zefu Lin, Rongxu Cui, Junjia Xu, Xiaojuan Jin, Wenling Li, Lue Fan, Zhaoxiang Zhang
cs.AI
초록
시각-언어-행동(VLA) 모델은 대규모 사전 학습에서 의미적 기반을 물려받아 분포 내 조작 과제에서 우수한 성능을 보인다. 그러나 이러한 의미적 기반은 정적 이미지-텍스트 쌍에 구축된 반면, 조작은 연속적이고 접촉이 빈번한 과정이며, 사전 학습은 이러한 동역학을 포착할 수 없다. 본 논문에서는 정책에 세계-행동 모델(WAM)의 사전 정보를 보강하는 VLA 프레임워크인 World Pilot을 제안한다. 이 사전 정보는 두 가지 상호 보완적 경로를 통해 의사 결정 체계로 연결된다. 잠재 유도(Latent Steering)는 장면 진화 잠재 변수로 지각 계층을 조건화하고, 행동 유도(Action Steering)는 예측된 궤적을 운동 사전 정보로 행동 생성기에 제공한다. 두 사전 정보는 의미적 조건화와 함께 장면의 예측된 관점과 궤적 수준의 운동 힌트를 VLA에 제공하며, 장면 진화 사전 정보는 행동 후학습이 수행되지 않은 비디오 사전 학습 세계 모델에 의해 제공되더라도 여전히 효과적이다. World Pilot은 LIBERO-Plus 제로샷 분포 외(OOD) 벤치마크에서 최첨단 총 성공률 84.7%를 달성하고, 네 가지 조작 과제에 걸친 모든 실제 로봇 설정에서 가장 높은 성공률을 기록했으며, 특히 시점, 기하학, 변형 상태 및 자세 변화 하에서 가장 큰 성능 차이를 보였다. 프로젝트 웹사이트: https://world-pilot.github.io/
English
Vision-Language-Action (VLA) models inherit semantic grounding from large-scale pretraining and perform competently across in-distribution manipulation tasks. This grounding, however, is built on static image-text pairs, whereas manipulation is a continuous, contact-rich process whose dynamics this pretraining cannot capture. We present World Pilot, a VLA framework that augments the policy with priors from a World-Action Model (WAM), routed into the decision chain through two complementary pathways. Latent Steering conditions the perception layer on a scene-evolution latent, and Action Steering supplies an anticipated trajectory as a motion prior to the action generator. Together the two priors equip the VLA with an anticipated view of the scene and a trajectory-level motion hint alongside its semantic conditioning, and the scene-evolution prior remains effective even when supplied by a video-pretrained world model that has not been action-post-trained. World Pilot attains a state-of-the-art Total success rate of 84.7% on the LIBERO-Plus zero-shot OOD benchmark and the highest success rate on every real-robot setting across four manipulation tasks, with the largest margins under shifts in viewpoint, geometry, deformable state, and pose. Project Website: https://world-pilot.github.io/