GigaBrain-0 : Un modèle vision-langage-action alimenté par un modèle du monde
GigaBrain-0: A World Model-Powered Vision-Language-Action Model
October 22, 2025
papers.authors: GigaBrain Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jie Li, Jiagang Zhu, Lv Feng, Peng Li, Qiuping Deng, Runqi Ouyang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yilong Li, Yiran Ding, Yuan Xu, Yun Ye, Yukun Zhou, Zhehao Dong, Zhenan Wang, Zhichao Liu, Zheng Zhu
cs.AI
papers.abstract
L’entraînement des modèles Vision-Langage-Action (VLA) pour des robots généralistes nécessite généralement des données robotiques à grande échelle provenant du monde réel, dont la collecte est coûteuse et chronophage. L’inefficacité de la collecte de données physiques limite sévèrement l’évolutivité et la capacité de généralisation des systèmes VLA actuels. Pour relever ce défi, nous introduisons GigaBrain-0, un nouveau modèle de fondation VLA alimenté par des données générées par des modèles du monde (par exemple, génération de vidéos, transfert réel à réel, transfert humain, transfert de vue, transfert simulation à réel). En exploitant les modèles du monde pour générer des données diversifiées à grande échelle, GigaBrain-0 réduit considérablement la dépendance aux données robotiques réelles tout en améliorant la généralisation inter-tâches. Notre approche renforce également la robustesse des politiques grâce à la modélisation des entrées RGBD et à la supervision incarnée de la Chaîne de Pensée (CoT), permettant au modèle de raisonner sur la géométrie spatiale, les états des objets et les dépendances à long terme lors de l’exécution des tâches. Cela conduit à des gains substantiels dans les performances réelles sur des tâches de manipulation dextre, à long terme et mobile. Des expériences approfondies démontrent que GigaBrain-0 atteint une généralisation supérieure face aux variations d’apparence (par exemple, textures, couleurs), de placement des objets et de points de vue de la caméra. De plus, nous présentons GigaBrain-0-Small, une variante légère optimisée conçue pour fonctionner efficacement sur des dispositifs tels que le NVIDIA Jetson AGX Orin.
English
Training Vision-Language-Action (VLA) models for generalist robots typically
requires large-scale real-world robot data, which is expensive and
time-consuming to collect. The inefficiency of physical data collection
severely limits the scalability, and generalization capacity of current VLA
systems. To address this challenge, we introduce GigaBrain-0, a novel VLA
foundation model empowered by world model-generated data (e.g., video
generation, real2real transfer, human transfer, view transfer, sim2real
transfer data). By leveraging world models to generate diverse data at scale,
GigaBrain-0 significantly reduces reliance on real robot data while improving
cross-task generalization. Our approach further improves policy robustness
through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision,
enabling the model to reason about spatial geometry, object states, and
long-horizon dependencies during task execution. This leads to substantial
gains in real-world performance on dexterous, long-horizon, and mobile
manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves
superior generalization across variations in appearances (e.g., textures,
colors), object placements, and camera viewpoints. Additionally, we present
GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently
on devices such as the NVIDIA Jetson AGX Orin.