ChatPaper.aiChatPaper

GigaWorld-0: Wereldmodellen als Data-engine om Belichaamde AI te Versterken

GigaWorld-0: World Models as Data Engine to Empower Embodied AI

November 25, 2025
Auteurs: GigaWorld Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jiagang Zhu, Kerui Li, Mengyuan Xu, Qiuping Deng, Siting Wang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yankai Wang, Yu Cao, Yifan Chang, Yuan Xu, Yun Ye, Yang Wang, Yukun Zhou, Zhengyuan Zhang, Zhehao Dong, Zheng Zhu
cs.AI

Samenvatting

Wereldmodellen ontstaan als een fundamenteel paradigma voor schaalbare, data-efficiënte embodied AI. In dit werk presenteren we GigaWorld-0, een uniform raamwerk voor wereldmodellen dat expliciet is ontworpen als een data-engine voor Vision-Language-Action (VLA)-leren. GigaWorld-0 integreert twee synergetische componenten: GigaWorld-0-Video, dat grootschalige videogeneratie benut om diverse, textuurrijke en temporeel coherente belichaamde sequenties te produceren onder fijnmazige controle van uiterlijk, camerastandpunt en actiesemantiek; en GigaWorld-0-3D, dat 3D-generatieve modellering, 3D Gaussian Splatting-reconstructie, fysiek differentieerbare systeemidentificatie en uitvoerbare bewegingsplanning combineert om geometrische consistentie en fysieke realisme te waarborgen. Hun gezamenlijke optimalisatie maakt de schaalbare synthese van belichaamde interactiedata mogelijk die visueel overtuigend, ruimtelijk coherent, fysiek plausibel en instructie-uitgelijnd is. Grootschalige training wordt haalbaar gemaakt door ons efficiënte GigaTrain-raamwerk, dat gebruikmaakt van FP8-precisie en sparse attention om de geheugen- en rekenvereisten drastisch te verminderen. We voeren uitgebreide evaluaties uit die aantonen dat GigaWorld-0 hoogwaardige, diverse en bestuurbare data genereert over meerdere dimensies. Cruciaal is dat VLA-modellen (bijv. GigaBrain-0) die zijn getraind met door GigaWorld-0 gegenereerde data, sterke prestaties in de echte wereld bereiken, waarbij generalisatie en taaksucces op fysieke robots aanzienlijk verbeteren zonder enige echte wereldinteractie tijdens de training.
English
World models are emerging as a foundational paradigm for scalable, data-efficient embodied AI. In this work, we present GigaWorld-0, a unified world model framework designed explicitly as a data engine for Vision-Language-Action (VLA) learning. GigaWorld-0 integrates two synergistic components: GigaWorld-0-Video, which leverages large-scale video generation to produce diverse, texture-rich, and temporally coherent embodied sequences under fine-grained control of appearance, camera viewpoint, and action semantics; and GigaWorld-0-3D, which combines 3D generative modeling, 3D Gaussian Splatting reconstruction, physically differentiable system identification, and executable motion planning to ensure geometric consistency and physical realism. Their joint optimization enables the scalable synthesis of embodied interaction data that is visually compelling, spatially coherent, physically plausible, and instruction-aligned. Training at scale is made feasible through our efficient GigaTrain framework, which exploits FP8-precision and sparse attention to drastically reduce memory and compute requirements. We conduct comprehensive evaluations showing that GigaWorld-0 generates high-quality, diverse, and controllable data across multiple dimensions. Critically, VLA model (e.g., GigaBrain-0) trained on GigaWorld-0-generated data achieve strong real-world performance, significantly improving generalization and task success on physical robots without any real-world interaction during training.
PDF286December 1, 2025