GigaWorld-Policy: Un Modelo Eficiente de Mundo-Acción Centrado en la Acción
GigaWorld-Policy: An Efficient Action-Centered World--Action Model
March 18, 2026
Autores: Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Hengtao Li, Jie Li, Jindi Lv, Jingyu Liu, Min Cao, Peng Li, Qiuping Deng, Wenjun Mei, Xiaofeng Wang, Xinze Chen, Xinyu Zhou, Yang Wang, Yifan Chang, Yifan Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu
cs.AI
Resumen
Los Modelos de Acción-Mundo (WAM) inicializados a partir de arquitecturas preentrenadas de generación de vídeo han demostrado un potencial notable para el aprendizaje de políticas de robots. Sin embargo, los enfoques existentes se enfrentan a dos cuellos de botella críticos que dificultan su rendimiento y despliegue. En primer lugar, el razonamiento conjunto sobre la dinámica visual futura y las acciones correspondientes conlleva una sobrecarga computacional sustancial durante la inferencia. En segundo lugar, el modelado conjunto a menudo entrelaza las representaciones visuales y de movimiento, haciendo que la precisión de la predicción del movimiento dependa en gran medida de la calidad de las predicciones de vídeo futuro. Para abordar estos problemas, presentamos GigaWorld-Policy, un WAM centrado en la acción que aprende la dinámica píxel-acción en 2D a la vez que permite una decodificación de acciones eficiente, con generación de vídeo opcional. Específicamente, formulamos el entrenamiento de la política en dos componentes acoplados: el modelo predice secuencias de acciones futuras condicionadas por la observación actual y, simultáneamente, genera vídeos futuros condicionados por las acciones predichas y la misma observación. La política se supervisa mediante la predicción de acciones y la generación de vídeo, lo que proporciona señales de aprendizaje más ricas y fomenta acciones físicamente plausibles a través de restricciones de dinámica visual. Con un diseño causal que evita que los tokens de vídeo futuro influyan en los tokens de acción, la generación explícita de vídeo futuro es opcional en el momento de la inferencia, permitiendo una predicción de acciones más rápida durante el despliegue. Para respaldar este paradigma, hemos creado un conjunto de datos robótico diverso y a gran escala para preentrenar un modelo de generación de vídeo centrado en la acción, que luego se adapta como arquitectura base para el aprendizaje de políticas de robots. Los resultados experimentales en plataformas robóticas del mundo real muestran que GigaWorld-Policy se ejecuta 9 veces más rápido que el principal modelo de referencia WAM, Motus, al tiempo que mejora las tasas de éxito de las tareas en un 7%. Además, en comparación con pi-0.5, GigaWorld-Policy mejora el rendimiento en un 95% en RoboTwin 2.0.
English
World-Action Models (WAM) initialized from pre-trained video generation backbones have demonstrated remarkable potential for robot policy learning. However, existing approaches face two critical bottlenecks that hinder performance and deployment. First, jointly reasoning over future visual dynamics and corresponding actions incurs substantial inference overhead. Second, joint modeling often entangles visual and motion representations, making motion prediction accuracy heavily dependent on the quality of future video forecasts. To address these issues, we introduce GigaWorld-Policy, an action-centered WAM that learns 2D pixel-action dynamics while enabling efficient action decoding, with optional video generation. Specifically, we formulate policy training into two coupled components: the model predicts future action sequences conditioned on the current observation, and simultaneously generates future videos conditioned on the predicted actions and the same observation. The policy is supervised by both action prediction and video generation, providing richer learning signals and encouraging physically plausible actions through visual-dynamics constraints. With a causal design that prevents future-video tokens from influencing action tokens, explicit future-video generation is optional at inference time, allowing faster action prediction during deployment. To support this paradigm, we curate a diverse, large-scale robot dataset to pre-train an action-centered video generation model, which is then adapted as the backbone for robot policy learning. Experimental results on real-world robotic platforms show that GigaWorld-Policy runs 9x faster than the leading WAM baseline, Motus, while improving task success rates by 7%. Moreover, compared with pi-0.5, GigaWorld-Policy improves performance by 95% on RoboTwin 2.0.