GigaWorld-0: Мировые модели как механизм данных для расширения возможностей воплощенного ИИ
GigaWorld-0: World Models as Data Engine to Empower Embodied AI
November 25, 2025
Авторы: GigaWorld Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jiagang Zhu, Kerui Li, Mengyuan Xu, Qiuping Deng, Siting Wang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yankai Wang, Yu Cao, Yifan Chang, Yuan Xu, Yun Ye, Yang Wang, Yukun Zhou, Zhengyuan Zhang, Zhehao Dong, Zheng Zhu
cs.AI
Аннотация
Модели мира становятся фундаментальной парадигмой для масштабируемого и эффективного по данным воплощенного ИИ. В данной работе мы представляем GigaWorld-0 — унифицированную фреймворк-модель мира, разработанную специально в качестве механизма генерации данных для обучения Vision-Language-Action (VLA). GigaWorld-0 объединяет две синергетические компоненты: GigaWorld-0-Video, которая использует крупномасштабную генерацию видео для создания разнообразных, богатых текстурой и временно согласованных последовательностей для воплощенного ИИ при детальном контроле внешнего вида, точки обзора камеры и семантики действий; и GigaWorld-0-3D, которая сочетает 3D-генеративное моделирование, реконструкцию на основе 3D Gaussian Splatting, физически дифференцируемую идентификацию системы и исполняемое планирование движений для обеспечения геометрической согласованности и физического правдоподобия. Их совместная оптимизация позволяет осуществлять масштабируемый синтез данных о воплощенном взаимодействии, которые визуально привлекательны, пространственно согласованы, физически правдоподобны и соответствуют инструкциям. Крупномасштабное обучение становится возможным благодаря нашему эффективному фреймворку GigaTrain, который использует вычисления с точностью FP8 и разреженные механизмы внимания для радикального снижения требований к памяти и вычислительным ресурсам. Мы проводим всесторонние оценки, показывающие, что GigaWorld-0 генерирует высококачественные, разнообразные и управляемые данные по множеству параметров. Ключевой результат заключается в том, что модели VLA (например, GigaBrain-0), обученные на данных, сгенерированных GigaWorld-0, демонстрируют высокую производительность в реальном мире, значительно улучшая обобщающую способность и успешность выполнения задач на физических роботах без какого-либо взаимодействия с реальным миром во время обучения.
English
World models are emerging as a foundational paradigm for scalable, data-efficient embodied AI. In this work, we present GigaWorld-0, a unified world model framework designed explicitly as a data engine for Vision-Language-Action (VLA) learning. GigaWorld-0 integrates two synergistic components: GigaWorld-0-Video, which leverages large-scale video generation to produce diverse, texture-rich, and temporally coherent embodied sequences under fine-grained control of appearance, camera viewpoint, and action semantics; and GigaWorld-0-3D, which combines 3D generative modeling, 3D Gaussian Splatting reconstruction, physically differentiable system identification, and executable motion planning to ensure geometric consistency and physical realism. Their joint optimization enables the scalable synthesis of embodied interaction data that is visually compelling, spatially coherent, physically plausible, and instruction-aligned. Training at scale is made feasible through our efficient GigaTrain framework, which exploits FP8-precision and sparse attention to drastically reduce memory and compute requirements. We conduct comprehensive evaluations showing that GigaWorld-0 generates high-quality, diverse, and controllable data across multiple dimensions. Critically, VLA model (e.g., GigaBrain-0) trained on GigaWorld-0-generated data achieve strong real-world performance, significantly improving generalization and task success on physical robots without any real-world interaction during training.