GigaBrain-0: Een op wereldmodellen gebaseerd visie-taal-actie-model

Samenvatting

Het trainen van Vision-Language-Action (VLA) modellen voor generalistische robots vereist doorgaans grootschalige real-world robotdata, die kostbaar en tijdrovend zijn om te verzamelen. De inefficiëntie van fysieke dataverzameling beperkt de schaalbaarheid en generalisatiecapaciteit van huidige VLA-systemen aanzienlijk. Om deze uitdaging aan te pakken, introduceren we GigaBrain-0, een nieuw VLA-foundationmodel dat wordt aangedreven door wereldmodel-gegenereerde data (bijv. videogeneratie, real2real transfer, human transfer, view transfer, sim2real transfer data). Door wereldmodellen te gebruiken om op grote schaal diverse data te genereren, vermindert GigaBrain-0 de afhankelijkheid van echte robotdata aanzienlijk, terwijl de generalisatie over taken wordt verbeterd. Onze aanpak verbetert verder de robuustheid van het beleid door RGBD-invoermodellering en embodied Chain-of-Thought (CoT) supervisie, waardoor het model in staat is om te redeneren over ruimtelijke geometrie, objecttoestanden en langetermijnafhankelijkheden tijdens de uitvoering van taken. Dit leidt tot aanzienlijke verbeteringen in de prestaties in de echte wereld bij behendige, langetermijn- en mobiele manipulatietaken. Uitgebreide experimenten tonen aan dat GigaBrain-0 superieure generalisatie bereikt over variaties in uiterlijk (bijv. texturen, kleuren), objectplaatsing en camerastandpunten. Daarnaast presenteren we GigaBrain-0-Small, een geoptimaliseerde lichtgewicht variant die is ontworpen om efficiënt te draaien op apparaten zoals de NVIDIA Jetson AGX Orin.

English

Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.

GigaBrain-0: Een op wereldmodellen gebaseerd visie-taal-actie-model

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

Samenvatting

Support