GigaBrain-0: Un Modello Visione-Linguaggio-Azione Basato su un Modello del Mondo

Abstract

L'addestramento di modelli Vision-Language-Action (VLA) per robot generalisti richiede tipicamente dati robotici su larga scala provenienti dal mondo reale, la cui raccolta è costosa e dispendiosa in termini di tempo. L'inefficienza nella raccolta di dati fisici limita fortemente la scalabilità e la capacità di generalizzazione degli attuali sistemi VLA. Per affrontare questa sfida, introduciamo GigaBrain-0, un nuovo modello di fondazione VLA potenziato da dati generati da modelli del mondo (ad esempio, generazione di video, trasferimento real2real, trasferimento umano, trasferimento di visuale, dati sim2real). Sfruttando i modelli del mondo per generare dati diversificati su larga scala, GigaBrain-0 riduce significativamente la dipendenza dai dati robotici reali, migliorando al contempo la generalizzazione tra compiti. Il nostro approccio migliora ulteriormente la robustezza delle politiche attraverso la modellazione degli input RGBD e la supervisione embodied Chain-of-Thought (CoT), consentendo al modello di ragionare sulla geometria spaziale, sugli stati degli oggetti e sulle dipendenze a lungo termine durante l'esecuzione dei compiti. Ciò si traduce in sostanziali miglioramenti nelle prestazioni nel mondo reale per compiti di manipolazione dexterous, a lungo termine e mobile. Esperimenti estensivi dimostrano che GigaBrain-0 raggiunge una superiore generalizzazione rispetto a variazioni di aspetto (ad esempio, texture, colori), posizionamento degli oggetti e punti di vista della telecamera. Inoltre, presentiamo GigaBrain-0-Small, una variante leggera ottimizzata progettata per funzionare in modo efficiente su dispositivi come l'NVIDIA Jetson AGX Orin.

English

Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.

GigaBrain-0: Un Modello Visione-Linguaggio-Azione Basato su un Modello del Mondo

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

Abstract

Support