ChatPaper.aiChatPaper

GigaWorld-0 : Les modèles du monde comme moteur de données pour renforcer l'intelligence artificielle incarnée

GigaWorld-0: World Models as Data Engine to Empower Embodied AI

November 25, 2025
papers.authors: GigaWorld Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jiagang Zhu, Kerui Li, Mengyuan Xu, Qiuping Deng, Siting Wang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yankai Wang, Yu Cao, Yifan Chang, Yuan Xu, Yun Ye, Yang Wang, Yukun Zhou, Zhengyuan Zhang, Zhehao Dong, Zheng Zhu
cs.AI

papers.abstract

Les modèles du monde émergent comme un paradigme fondamental pour une IA incarnée évolutive et économe en données. Dans ce travail, nous présentons GigaWorld-0, un cadre unifié de modèle du monde conçu explicitement comme un moteur de données pour l'apprentissage Vision-Langage-Action (VLA). GigaWorld-0 intègre deux composantes synergiques : GigaWorld-0-Vidéo, qui exploite la génération de vidéos à grande échelle pour produire des séquences incarnées diverses, riches en textures et temporellement cohérentes sous un contrôle granulaire de l'apparence, du point de vue de la caméra et de la sémantique des actions ; et GigaWorld-0-3D, qui combine la modélisation générative 3D, la reconstruction par *Gaussian Splatting* 3D, l'identification de systèmes physiquement différentiables et la planification de mouvements exécutable pour garantir la cohérence géométrique et le réalisme physique. Leur optimisation conjointe permet la synthèse évolutive de données d'interaction incarnée qui sont visuellement attractives, spatialement cohérentes, physiquement plausibles et alignées sur les instructions. L'entraînement à grande échelle est rendu possible grâce à notre cadre efficace GigaTrain, qui exploite la précision FP8 et l'attention creuse pour réduire considérablement les besoins en mémoire et en calcul. Nous menons des évaluations complètes montrant que GigaWorld-0 génère des données de haute qualité, diversifiées et contrôlables sur de multiples dimensions. Fait crucial, les modèles VLA (par exemple, GigaBrain-0) entraînés sur des données générées par GigaWorld-0 atteignent de solides performances dans le monde réel, améliorant significativement la généralisation et la réussite des tâches sur des robots physiques sans aucune interaction réelle pendant l'entraînement.
English
World models are emerging as a foundational paradigm for scalable, data-efficient embodied AI. In this work, we present GigaWorld-0, a unified world model framework designed explicitly as a data engine for Vision-Language-Action (VLA) learning. GigaWorld-0 integrates two synergistic components: GigaWorld-0-Video, which leverages large-scale video generation to produce diverse, texture-rich, and temporally coherent embodied sequences under fine-grained control of appearance, camera viewpoint, and action semantics; and GigaWorld-0-3D, which combines 3D generative modeling, 3D Gaussian Splatting reconstruction, physically differentiable system identification, and executable motion planning to ensure geometric consistency and physical realism. Their joint optimization enables the scalable synthesis of embodied interaction data that is visually compelling, spatially coherent, physically plausible, and instruction-aligned. Training at scale is made feasible through our efficient GigaTrain framework, which exploits FP8-precision and sparse attention to drastically reduce memory and compute requirements. We conduct comprehensive evaluations showing that GigaWorld-0 generates high-quality, diverse, and controllable data across multiple dimensions. Critically, VLA model (e.g., GigaBrain-0) trained on GigaWorld-0-generated data achieve strong real-world performance, significantly improving generalization and task success on physical robots without any real-world interaction during training.
PDF286December 1, 2025