Rapporto Tecnico di RoboBrain 2.0

Abstract

Presentiamo RoboBrain 2.0, la nostra ultima generazione di modelli fondazionali visione-linguaggio incarnati, progettati per unificare percezione, ragionamento e pianificazione per compiti complessi in ambienti fisici. È disponibile in due varianti: un modello leggero da 7B e un modello completo da 32B, caratterizzato da un'architettura eterogenea con un encoder visivo e un modello linguistico. Nonostante le dimensioni compatte, RoboBrain 2.0 raggiunge prestazioni solide in un'ampia gamma di compiti di ragionamento incarnato. Su benchmark sia spaziali che temporali, la variante da 32B ottiene risultati leader, superando modelli open-source e proprietari precedenti. In particolare, supporta capacità chiave dell'AI incarnata nel mondo reale, tra cui comprensione spaziale (ad esempio, previsione di affordance, riferimento spaziale, previsione di traiettorie) e decision-making temporale (ad esempio, interazione a ciclo chiuso, pianificazione a lungo termine multi-agente e aggiornamento di grafi di scena). Questo rapporto dettaglia l'architettura del modello, la costruzione dei dati, le strategie di addestramento multi-stadio, l'infrastruttura e le applicazioni pratiche. Speriamo che RoboBrain 2.0 avanzi la ricerca sull'AI incarnata e rappresenti un passo pratico verso la costruzione di agenti incarnati generalisti. Il codice, il checkpoint e i benchmark sono disponibili su https://superrobobrain.github.io.

English

We introduce RoboBrain 2.0, our latest generation of embodied vision-language foundation models, designed to unify perception, reasoning, and planning for complex embodied tasks in physical environments. It comes in two variants: a lightweight 7B model and a full-scale 32B model, featuring a heterogeneous architecture with a vision encoder and a language model. Despite its compact size, RoboBrain 2.0 achieves strong performance across a wide spectrum of embodied reasoning tasks. On both spatial and temporal benchmarks, the 32B variant achieves leading results, surpassing prior open-source and proprietary models. In particular, it supports key real-world embodied AI capabilities, including spatial understanding (e.g., affordance prediction, spatial referring, trajectory forecasting) and temporal decision-making (e.g., closed-loop interaction, multi-agent long-horizon planning, and scene graph updating). This report details the model architecture, data construction, multi-stage training strategies, infrastructure and practical applications. We hope RoboBrain 2.0 advances embodied AI research and serves as a practical step toward building generalist embodied agents. The code, checkpoint and benchmark are available at https://superrobobrain.github.io.

Rapporto Tecnico di RoboBrain 2.0

RoboBrain 2.0 Technical Report

Abstract

Support