GigaBrain-0: Ein Vision-Sprache-Handlungs-Modell auf Basis eines Weltmodells

papers.abstract

Das Training von Vision-Language-Action (VLA)-Modellen für generalistische Roboter erfordert typischerweise groß angelegte reale Roboterdaten, deren Erfassung kostspielig und zeitaufwendig ist. Die Ineffizienz der physischen Datenerfassung schränkt die Skalierbarkeit und Generalisierungsfähigkeit aktueller VLA-Systeme erheblich ein. Um diese Herausforderung zu bewältigen, stellen wir GigaBrain-0 vor, ein neuartiges VLA-Foundation-Modell, das durch Weltmodell-generierte Daten (z. B. Videogenerierung, Real2Real-Transfer, Human-Transfer, View-Transfer, Sim2Real-Transfer-Daten) unterstützt wird. Durch die Nutzung von Weltmodellen zur Generierung vielfältiger Daten in großem Maßstab reduziert GigaBrain-0 die Abhängigkeit von realen Roboterdaten erheblich und verbessert gleichzeitig die übergreifende Aufgaben-Generalisierung. Unser Ansatz steigert die Robustheit der Politik durch RGBD-Eingabemodellierung und verkörperte Chain-of-Thought (CoT)-Überwachung, wodurch das Modell in der Lage ist, räumliche Geometrie, Objektzustände und langfristige Abhängigkeiten während der Aufgabenausführung zu berücksichtigen. Dies führt zu erheblichen Verbesserungen der Leistung in der realen Welt bei geschickten, langfristigen und mobilen Manipulationsaufgaben. Umfangreiche Experimente zeigen, dass GigaBrain-0 eine überlegene Generalisierung über Variationen in Erscheinungen (z. B. Texturen, Farben), Objektplatzierungen und Kameraperspektiven hinweg erreicht. Zusätzlich präsentieren wir GigaBrain-0-Small, eine optimierte, leichtgewichtige Variante, die effizient auf Geräten wie dem NVIDIA Jetson AGX Orin ausgeführt werden kann.

English

Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.

GigaBrain-0: Ein Vision-Sprache-Handlungs-Modell auf Basis eines Weltmodells

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

papers.abstract

Support