GigaWorld-0: Modelos de Mundo como Motor de Dados para Capacitar a IA Corporificada

Resumo

Os modelos de mundo estão emergindo como um paradigma fundamental para a IA incorporada escalável e eficiente em dados. Neste trabalho, apresentamos o GigaWorld-0, uma estrutura unificada de modelo de mundo projetada explicitamente como um motor de dados para aprendizado de Visão-Linguagem-Ação (VLA). O GigaWorld-0 integra dois componentes sinérgicos: o GigaWorld-0-Video, que aproveita a geração de vídeo em larga escala para produzir sequências incorporadas diversas, ricas em textura e temporalmente coerentes sob controle refinado de aparência, ponto de vista da câmera e semântica de ação; e o GigaWorld-0-3D, que combina modelagem generativa 3D, reconstrução por *3D Gaussian Splatting*, identificação de sistemas fisicamente diferenciável e planejamento de movimento executável para garantir consistência geométrica e realismo físico. Sua otimização conjunta permite a síntese escalável de dados de interação incorporada que são visualmente atraentes, espacialmente coerentes, fisicamente plausíveis e alinhados com instruções. O treinamento em escala é viabilizado por nossa eficiente estrutura GigaTrain, que explora precisão FP8 e atenção esparsa para reduzir drasticamente os requisitos de memória e computação. Realizamos avaliações abrangentes mostrando que o GigaWorld-0 gera dados de alta qualidade, diversificados e controláveis em múltiplas dimensões. Crucialmente, modelos VLA (por exemplo, GigaBrain-0) treinados com dados gerados pelo GigaWorld-0 alcançam forte desempenho no mundo real, melhorando significativamente a generalização e o sucesso de tarefas em robôs físicos sem qualquer interação com o mundo real durante o treinamento.

English

World models are emerging as a foundational paradigm for scalable, data-efficient embodied AI. In this work, we present GigaWorld-0, a unified world model framework designed explicitly as a data engine for Vision-Language-Action (VLA) learning. GigaWorld-0 integrates two synergistic components: GigaWorld-0-Video, which leverages large-scale video generation to produce diverse, texture-rich, and temporally coherent embodied sequences under fine-grained control of appearance, camera viewpoint, and action semantics; and GigaWorld-0-3D, which combines 3D generative modeling, 3D Gaussian Splatting reconstruction, physically differentiable system identification, and executable motion planning to ensure geometric consistency and physical realism. Their joint optimization enables the scalable synthesis of embodied interaction data that is visually compelling, spatially coherent, physically plausible, and instruction-aligned. Training at scale is made feasible through our efficient GigaTrain framework, which exploits FP8-precision and sparse attention to drastically reduce memory and compute requirements. We conduct comprehensive evaluations showing that GigaWorld-0 generates high-quality, diverse, and controllable data across multiple dimensions. Critically, VLA model (e.g., GigaBrain-0) trained on GigaWorld-0-generated data achieve strong real-world performance, significantly improving generalization and task success on physical robots without any real-world interaction during training.

GigaWorld-0: Modelos de Mundo como Motor de Dados para Capacitar a IA Corporificada

GigaWorld-0: World Models as Data Engine to Empower Embodied AI

Resumo

Support