GigaBrain-0: Um Modelo Visão-Linguagem-Ação Alimentado por Modelo de Mundo

Resumo

O treinamento de modelos Visão-Linguagem-Ação (VLA) para robôs generalistas geralmente requer dados em grande escala do mundo real, que são caros e demorados de coletar. A ineficiência da coleta de dados físicos limita severamente a escalabilidade e a capacidade de generalização dos sistemas VLA atuais. Para enfrentar esse desafio, apresentamos o GigaBrain-0, um novo modelo de base VLA impulsionado por dados gerados por modelos de mundo (por exemplo, geração de vídeo, transferência real2real, transferência humana, transferência de visão, transferência sim2real). Ao aproveitar modelos de mundo para gerar dados diversos em escala, o GigaBrain-0 reduz significativamente a dependência de dados reais de robôs enquanto melhora a generalização entre tarefas. Nossa abordagem ainda melhora a robustez da política por meio da modelagem de entrada RGBD e supervisão de Cadeia de Pensamento (CoT) incorporada, permitindo que o modelo raciocine sobre geometria espacial, estados de objetos e dependências de longo horizonte durante a execução de tarefas. Isso resulta em ganhos substanciais no desempenho do mundo real em tarefas de manipulação hábil, de longo horizonte e móvel. Experimentos extensivos demonstram que o GigaBrain-0 alcança uma generalização superior em variações de aparências (por exemplo, texturas, cores), posicionamentos de objetos e pontos de vista da câmera. Além disso, apresentamos o GigaBrain-0-Small, uma variante leve otimizada projetada para rodar com eficiência em dispositivos como o NVIDIA Jetson AGX Orin.

English

Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.

GigaBrain-0: Um Modelo Visão-Linguagem-Ação Alimentado por Modelo de Mundo

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

Resumo

Support