GigaWorld-Policy: Эффективная модель мира, центрированная на действиях
GigaWorld-Policy: An Efficient Action-Centered World--Action Model
March 18, 2026
Авторы: Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Hengtao Li, Jie Li, Jindi Lv, Jingyu Liu, Min Cao, Peng Li, Qiuping Deng, Wenjun Mei, Xiaofeng Wang, Xinze Chen, Xinyu Zhou, Yang Wang, Yifan Chang, Yifan Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu
cs.AI
Аннотация
Модели «Мир-Действие» (WAM), инициализированные на основе предварительно обученных моделей генерации видео, продемонстрировали значительный потенциал для обучения политик роботов. Однако существующие подходы сталкиваются с двумя критическими проблемами, которые ограничивают их производительность и практическое применение. Во-первых, совместное прогнозирование будущей визуальной динамики и соответствующих действий требует значительных вычислительных затрат на этапе вывода. Во-вторых, совместное моделирование часто приводит к переплетению визуальных и моторных представлений, из-за чего точность прогнозирования действий становится сильно зависимой от качества предсказания будущих видео. Для решения этих проблем мы представляем GigaWorld-Policy — ориентированную на действия WAM, которая изучает 2D пиксельно-действенную динамику, обеспечивая при этом эффективное декодирование действий с опциональной генерацией видео. Конкретно, мы формулируем обучение политики как две связанные компоненты: модель предсказывает последовательности будущих действий на основе текущего наблюдения и одновременно генерирует будущие видео, обусловленные предсказанными действиями и тем же наблюдением. Политика обучается с контролем как по предсказанию действий, так и по генерации видео, что обеспечивает более богатые обучающие сигналы и способствует физически правдоподобным действиям через ограничения визуальной динамики. Благодаря причинно-следственной архитектуре, которая предотвращает влияние токенов будущего видео на токены действий, явная генерация будущих видео на этапе вывода является опциональной, что позволяет ускорить предсказание действий при развертывании. Для поддержки этой парадигмы мы подготовили разнообразный крупномасштабный набор данных о роботах для предварительного обучения ориентированной на действия модели генерации видео, которая затем адаптируется в качестве базовой модели для обучения политик роботов. Результаты экспериментов на реальных роботизированных платформах показывают, что GigaWorld-Policy работает в 9 раз быстрее, чем ведущий WAM-аналог Motus, при этом повышая процент успешного выполнения задач на 7%. Более того, по сравнению с pi-0.5, GigaWorld-Policy улучшает производительность на 95% в среде RoboTwin 2.0.
English
World-Action Models (WAM) initialized from pre-trained video generation backbones have demonstrated remarkable potential for robot policy learning. However, existing approaches face two critical bottlenecks that hinder performance and deployment. First, jointly reasoning over future visual dynamics and corresponding actions incurs substantial inference overhead. Second, joint modeling often entangles visual and motion representations, making motion prediction accuracy heavily dependent on the quality of future video forecasts. To address these issues, we introduce GigaWorld-Policy, an action-centered WAM that learns 2D pixel-action dynamics while enabling efficient action decoding, with optional video generation. Specifically, we formulate policy training into two coupled components: the model predicts future action sequences conditioned on the current observation, and simultaneously generates future videos conditioned on the predicted actions and the same observation. The policy is supervised by both action prediction and video generation, providing richer learning signals and encouraging physically plausible actions through visual-dynamics constraints. With a causal design that prevents future-video tokens from influencing action tokens, explicit future-video generation is optional at inference time, allowing faster action prediction during deployment. To support this paradigm, we curate a diverse, large-scale robot dataset to pre-train an action-centered video generation model, which is then adapted as the backbone for robot policy learning. Experimental results on real-world robotic platforms show that GigaWorld-Policy runs 9x faster than the leading WAM baseline, Motus, while improving task success rates by 7%. Moreover, compared with pi-0.5, GigaWorld-Policy improves performance by 95% on RoboTwin 2.0.