World Pilot: управление моделями видения-языка-действия с помощью априорных знаний о мире и действиях

Аннотация

Модели «Видение–Язык–Действие» (VLA) наследуют семантическую привязку от крупномасштабного предобучения и успешно справляются с задачами манипуляции в рамках внутридистрибутивного распределения. Однако эта привязка строится на статических парах изображение–текст, тогда как манипуляция представляет собой непрерывный, контактно-насыщенный процесс, динамику которого такое предобучение не способно уловить. Мы представляем World Pilot — фреймворк VLA, дополняющий политику априорными знаниями от модели «Мир–Действие» (WAM), которые направляются в цепочку принятия решений по двум взаимодополняющим путям. Латентное управление (Latent Steering) обуславливает слой восприятия латентным представлением эволюции сцены, а управление действием (Action Steering) предоставляет ожидаемую траекторию в качестве априорного движения генератору действий. Вместе две априорные информации наделяют VLA предвосхищающим представлением сцены и подсказкой о движении на уровне траектории в дополнение к семантическому обусловливанию. При этом априорная информация об эволюции сцены остаётся эффективной даже при подаче от предобученной на видео модели мира, не прошедшей пост-обучение на действиях. World Pilot достигает общего показателя успешности 84,7% на эталонной задаче zero-shot OOD для LIBERO-Plus и наивысшего показателя успешности во всех сценариях с реальными роботами для четырёх задач манипуляции, с наибольшими отрывами при изменениях точки обзора, геометрии, деформируемого состояния и позы. Веб-сайт проекта: https://world-pilot.github.io/

English

Vision-Language-Action (VLA) models inherit semantic grounding from large-scale pretraining and perform competently across in-distribution manipulation tasks. This grounding, however, is built on static image-text pairs, whereas manipulation is a continuous, contact-rich process whose dynamics this pretraining cannot capture. We present World Pilot, a VLA framework that augments the policy with priors from a World-Action Model (WAM), routed into the decision chain through two complementary pathways. Latent Steering conditions the perception layer on a scene-evolution latent, and Action Steering supplies an anticipated trajectory as a motion prior to the action generator. Together the two priors equip the VLA with an anticipated view of the scene and a trajectory-level motion hint alongside its semantic conditioning, and the scene-evolution prior remains effective even when supplied by a video-pretrained world model that has not been action-post-trained. World Pilot attains a state-of-the-art Total success rate of 84.7% on the LIBERO-Plus zero-shot OOD benchmark and the highest success rate on every real-robot setting across four manipulation tasks, with the largest margins under shifts in viewpoint, geometry, deformable state, and pose. Project Website: https://world-pilot.github.io/