ChatPaper.aiChatPaper

GigaBrain-0: Un Modello Visione-Linguaggio-Azione Basato su un Modello del Mondo

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

October 22, 2025
Autori: GigaBrain Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jie Li, Jiagang Zhu, Lv Feng, Peng Li, Qiuping Deng, Runqi Ouyang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yilong Li, Yiran Ding, Yuan Xu, Yun Ye, Yukun Zhou, Zhehao Dong, Zhenan Wang, Zhichao Liu, Zheng Zhu
cs.AI

Abstract

L'addestramento di modelli Vision-Language-Action (VLA) per robot generalisti richiede tipicamente dati robotici su larga scala provenienti dal mondo reale, la cui raccolta è costosa e dispendiosa in termini di tempo. L'inefficienza nella raccolta di dati fisici limita fortemente la scalabilità e la capacità di generalizzazione degli attuali sistemi VLA. Per affrontare questa sfida, introduciamo GigaBrain-0, un nuovo modello di fondazione VLA potenziato da dati generati da modelli del mondo (ad esempio, generazione di video, trasferimento real2real, trasferimento umano, trasferimento di visuale, dati sim2real). Sfruttando i modelli del mondo per generare dati diversificati su larga scala, GigaBrain-0 riduce significativamente la dipendenza dai dati robotici reali, migliorando al contempo la generalizzazione tra compiti. Il nostro approccio migliora ulteriormente la robustezza delle politiche attraverso la modellazione degli input RGBD e la supervisione embodied Chain-of-Thought (CoT), consentendo al modello di ragionare sulla geometria spaziale, sugli stati degli oggetti e sulle dipendenze a lungo termine durante l'esecuzione dei compiti. Ciò si traduce in sostanziali miglioramenti nelle prestazioni nel mondo reale per compiti di manipolazione dexterous, a lungo termine e mobile. Esperimenti estensivi dimostrano che GigaBrain-0 raggiunge una superiore generalizzazione rispetto a variazioni di aspetto (ad esempio, texture, colori), posizionamento degli oggetti e punti di vista della telecamera. Inoltre, presentiamo GigaBrain-0-Small, una variante leggera ottimizzata progettata per funzionare in modo efficiente su dispositivi come l'NVIDIA Jetson AGX Orin.
English
Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.
PDF304October 23, 2025