RoboBrain 2.0 Technischer Bericht

papers.abstract

Wir stellen RoboBrain 2.0 vor, unsere neueste Generation von verkörperten Vision-Sprache-Foundation-Modellen, die entwickelt wurden, um Wahrnehmung, logisches Denken und Planung für komplexe verkörperte Aufgaben in physischen Umgebungen zu vereinen. Es gibt zwei Varianten: ein leichtgewichtiges 7B-Modell und ein vollumfängliches 32B-Modell, die eine heterogene Architektur mit einem Vision-Encoder und einem Sprachmodell aufweisen. Trotz seiner kompakten Größe erzielt RoboBrain 2.0 eine starke Leistung über ein breites Spektrum von verkörperten Denkaufgaben. Sowohl bei räumlichen als auch zeitlichen Benchmarks erreicht die 32B-Variante führende Ergebnisse und übertrifft bisherige Open-Source- und proprietäre Modelle. Insbesondere unterstützt es wichtige Fähigkeiten der verkörperten KI in der realen Welt, darunter räumliches Verständnis (z. B. Affordance-Vorhersage, räumliche Referenzierung, Trajektorienvorhersage) und zeitliche Entscheidungsfindung (z. B. geschlossene Schleifeninteraktion, langfristige Planung mit mehreren Agenten und Aktualisierung von Szenengraphen). Dieser Bericht beschreibt detailliert die Modellarchitektur, die Datenerstellung, mehrstufige Trainingsstrategien, die Infrastruktur und praktische Anwendungen. Wir hoffen, dass RoboBrain 2.0 die Forschung zur verkörperten KI vorantreibt und als praktischer Schritt zum Aufbau von generalistischen verkörperten Agenten dient. Der Code, die Checkpoints und Benchmarks sind unter https://superrobobrain.github.io verfügbar.

English

We introduce RoboBrain 2.0, our latest generation of embodied vision-language foundation models, designed to unify perception, reasoning, and planning for complex embodied tasks in physical environments. It comes in two variants: a lightweight 7B model and a full-scale 32B model, featuring a heterogeneous architecture with a vision encoder and a language model. Despite its compact size, RoboBrain 2.0 achieves strong performance across a wide spectrum of embodied reasoning tasks. On both spatial and temporal benchmarks, the 32B variant achieves leading results, surpassing prior open-source and proprietary models. In particular, it supports key real-world embodied AI capabilities, including spatial understanding (e.g., affordance prediction, spatial referring, trajectory forecasting) and temporal decision-making (e.g., closed-loop interaction, multi-agent long-horizon planning, and scene graph updating). This report details the model architecture, data construction, multi-stage training strategies, infrastructure and practical applications. We hope RoboBrain 2.0 advances embodied AI research and serves as a practical step toward building generalist embodied agents. The code, checkpoint and benchmark are available at https://superrobobrain.github.io.

RoboBrain 2.0 Technischer Bericht

RoboBrain 2.0 Technical Report

papers.abstract

Support