ChatPaper.aiChatPaper

GigaWorld-0: I modelli di mondo come motore di dati per potenziare l'intelligenza artificiale incarnata

GigaWorld-0: World Models as Data Engine to Empower Embodied AI

November 25, 2025
Autori: GigaWorld Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jiagang Zhu, Kerui Li, Mengyuan Xu, Qiuping Deng, Siting Wang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yankai Wang, Yu Cao, Yifan Chang, Yuan Xu, Yun Ye, Yang Wang, Yukun Zhou, Zhengyuan Zhang, Zhehao Dong, Zheng Zhu
cs.AI

Abstract

I modelli mondiali si stanno affermando come paradigma fondante per l'IA incarnata scalabile ed efficiente dal punto di vista dei dati. In questo lavoro, presentiamo GigaWorld-0, un framework unificato per modelli mondiali progettato esplicitamente come motore di dati per l'apprendimento Visione-Linguaggio-Azione (VLA). GigaWorld-0 integra due componenti sinergiche: GigaWorld-0-Video, che sfrutta la generazione di video su larga scala per produrre sequenze incarnate diversificate, ricche di texture e temporalmente coerenti sotto un controllo granulare dell'aspetto, del punto di vista della telecamera e della semantica delle azioni; e GigaWorld-0-3D, che combina modellazione generativa 3D, ricostruzione 3D Gaussian Splatting, identificazione di sistemi fisicamente differenziabili e pianificazione del moto eseguibile per garantire coerenza geometrica e realismo fisico. La loro ottimizzazione congiunta consente la sintesi scalabile di dati di interazione incarnata che sono visivamente accattivanti, spazialmente coerenti, fisicamente plausibili e allineati alle istruzioni. L'addestramento su larga scala è reso fattibile dal nostro efficiente framework GigaTrain, che sfrutta la precisione FP8 e l'attenzione sparsa per ridurre drasticamente i requisiti di memoria e calcolo. Condurremo valutazioni complete che dimostrano come GigaWorld-0 generi dati di alta qualità, diversificati e controllabili su molteplici dimensioni. In modo cruciale, i modelli VLA (ad esempio, GigaBrain-0) addestrati sui dati generati da GigaWorld-0 raggiungono solide prestazioni nel mondo reale, migliorando significativamente la generalizzazione e il successo dei compiti su robot fisici senza alcuna interazione nel mondo reale durante l'addestramento.
English
World models are emerging as a foundational paradigm for scalable, data-efficient embodied AI. In this work, we present GigaWorld-0, a unified world model framework designed explicitly as a data engine for Vision-Language-Action (VLA) learning. GigaWorld-0 integrates two synergistic components: GigaWorld-0-Video, which leverages large-scale video generation to produce diverse, texture-rich, and temporally coherent embodied sequences under fine-grained control of appearance, camera viewpoint, and action semantics; and GigaWorld-0-3D, which combines 3D generative modeling, 3D Gaussian Splatting reconstruction, physically differentiable system identification, and executable motion planning to ensure geometric consistency and physical realism. Their joint optimization enables the scalable synthesis of embodied interaction data that is visually compelling, spatially coherent, physically plausible, and instruction-aligned. Training at scale is made feasible through our efficient GigaTrain framework, which exploits FP8-precision and sparse attention to drastically reduce memory and compute requirements. We conduct comprehensive evaluations showing that GigaWorld-0 generates high-quality, diverse, and controllable data across multiple dimensions. Critically, VLA model (e.g., GigaBrain-0) trained on GigaWorld-0-generated data achieve strong real-world performance, significantly improving generalization and task success on physical robots without any real-world interaction during training.
PDF286December 1, 2025