GigaWorld-0: Weltmodelle als Daten-Engine zur Stärkung von verkörpertener KI
GigaWorld-0: World Models as Data Engine to Empower Embodied AI
November 25, 2025
papers.authors: GigaWorld Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jiagang Zhu, Kerui Li, Mengyuan Xu, Qiuping Deng, Siting Wang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yankai Wang, Yu Cao, Yifan Chang, Yuan Xu, Yun Ye, Yang Wang, Yukun Zhou, Zhengyuan Zhang, Zhehao Dong, Zheng Zhu
cs.AI
papers.abstract
Weltmodelle etablieren sich zunehmend als grundlegendes Paradigma für skalierbare, dateneffiziente verkörperte KI. In dieser Arbeit stellen wir GigaWorld-0 vor, ein vereinheitlichtes Weltmodell-Framework, das explizit als Daten-Engine für Vision-Language-Action (VLA) Lernen konzipiert ist. GigaWorld-0 integriert zwei synergetische Komponenten: GigaWorld-0-Video, das großskalige Videogenerierung nutzt, um unter feinkörniger Kontrolle von Erscheinungsbild, Kameraperspektive und Aktionssemantik diverse, texturreiche und zeitlich kohärente verkörperte Sequenzen zu erzeugen; und GigaWorld-0-3D, das 3D-Generativmodellierung, 3D-Gaussian-Splatting-Rekonstruktion, physikalisch differenzierbare Systemidentifikation und ausführbare Bewegungsplanung kombiniert, um geometrische Konsistenz und physikalische Realitätstreue zu gewährleisten. Ihre gemeinsame Optimierung ermöglicht die skalierbare Synthese von Verkörperungs-Interaktionsdaten, die visuell ansprechend, räumlich kohärent, physikalisch plausibel und befehlsausgerichtet sind. Eine Skalierung des Trainings wird durch unser effizientes GigaTrain-Framework ermöglicht, das FP8-Präzision und sparse Attention nutzt, um den Speicher- und Rechenbedarf drastisch zu reduzieren. Wir führen umfassende Evaluationen durch, die zeigen, dass GigaWorld-0 hochwertige, diverse und steuerbare Daten über mehrere Dimensionen hinweg generiert. Entscheidend ist, dass VLA-Modelle (z.B. GigaBrain-0), die mit GigaWorld-0-generierten Daten trainiert wurden, eine hohe Leistung in der realen Welt erzielen und die Generalisierungsfähigkeit und Aufgabenbewältigung auf physischen Robotern signifikant verbessern, ohne jegliche Interaktion mit der realen Welt während des Trainings.
English
World models are emerging as a foundational paradigm for scalable, data-efficient embodied AI. In this work, we present GigaWorld-0, a unified world model framework designed explicitly as a data engine for Vision-Language-Action (VLA) learning. GigaWorld-0 integrates two synergistic components: GigaWorld-0-Video, which leverages large-scale video generation to produce diverse, texture-rich, and temporally coherent embodied sequences under fine-grained control of appearance, camera viewpoint, and action semantics; and GigaWorld-0-3D, which combines 3D generative modeling, 3D Gaussian Splatting reconstruction, physically differentiable system identification, and executable motion planning to ensure geometric consistency and physical realism. Their joint optimization enables the scalable synthesis of embodied interaction data that is visually compelling, spatially coherent, physically plausible, and instruction-aligned. Training at scale is made feasible through our efficient GigaTrain framework, which exploits FP8-precision and sparse attention to drastically reduce memory and compute requirements. We conduct comprehensive evaluations showing that GigaWorld-0 generates high-quality, diverse, and controllable data across multiple dimensions. Critically, VLA model (e.g., GigaBrain-0) trained on GigaWorld-0-generated data achieve strong real-world performance, significantly improving generalization and task success on physical robots without any real-world interaction during training.