GigaWorld-0: Modelos del Mundo como Motor de Datos para Potenciar la Inteligencia Artificial Embebida
GigaWorld-0: World Models as Data Engine to Empower Embodied AI
November 25, 2025
Autores: GigaWorld Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jiagang Zhu, Kerui Li, Mengyuan Xu, Qiuping Deng, Siting Wang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yankai Wang, Yu Cao, Yifan Chang, Yuan Xu, Yun Ye, Yang Wang, Yukun Zhou, Zhengyuan Zhang, Zhehao Dong, Zheng Zhu
cs.AI
Resumen
Los modelos de mundo están surgiendo como un paradigma fundamental para la IA encarnada escalable y eficiente en datos. En este trabajo, presentamos GigaWorld-0, un marco unificado de modelo de mundo diseñado explícitamente como un motor de datos para el aprendizaje Visión-Lenguaje-Acción (VLA). GigaWorld-0 integra dos componentes sinérgicos: GigaWorld-0-Video, que aprovecha la generación de video a gran escala para producir secuencias encarnadas diversas, ricas en textura y temporalmente coherentes bajo un control granular de la apariencia, el punto de vista de la cámara y la semántica de la acción; y GigaWorld-0-3D, que combina el modelado generativo 3D, la reconstrucción mediante *Gaussian Splatting* 3D, la identificación de sistemas físicamente diferenciable y la planificación de movimiento ejecutable para garantizar la coherencia geométrica y el realismo físico. Su optimización conjunta permite la síntesis escalable de datos de interacción encarnada que son visualmente atractivos, espacialmente coherentes, físicamente plausibles y alineados con instrucciones. El entrenamiento a gran escala es factible gracias a nuestro eficiente marco GigaTrain, que explota la precisión FP8 y la atención dispersa para reducir drásticamente los requisitos de memoria y computación. Realizamos evaluaciones exhaustivas que muestran que GigaWorld-0 genera datos de alta calidad, diversos y controlables en múltiples dimensiones. De manera crucial, los modelos VLA (por ejemplo, GigaBrain-0) entrenados con datos generados por GigaWorld-0 logran un rendimiento sólido en el mundo real, mejorando significativamente la generalización y el éxito de las tareas en robots físicos sin ninguna interacción del mundo real durante el entrenamiento.
English
World models are emerging as a foundational paradigm for scalable, data-efficient embodied AI. In this work, we present GigaWorld-0, a unified world model framework designed explicitly as a data engine for Vision-Language-Action (VLA) learning. GigaWorld-0 integrates two synergistic components: GigaWorld-0-Video, which leverages large-scale video generation to produce diverse, texture-rich, and temporally coherent embodied sequences under fine-grained control of appearance, camera viewpoint, and action semantics; and GigaWorld-0-3D, which combines 3D generative modeling, 3D Gaussian Splatting reconstruction, physically differentiable system identification, and executable motion planning to ensure geometric consistency and physical realism. Their joint optimization enables the scalable synthesis of embodied interaction data that is visually compelling, spatially coherent, physically plausible, and instruction-aligned. Training at scale is made feasible through our efficient GigaTrain framework, which exploits FP8-precision and sparse attention to drastically reduce memory and compute requirements. We conduct comprehensive evaluations showing that GigaWorld-0 generates high-quality, diverse, and controllable data across multiple dimensions. Critically, VLA model (e.g., GigaBrain-0) trained on GigaWorld-0-generated data achieve strong real-world performance, significantly improving generalization and task success on physical robots without any real-world interaction during training.