ChatPaper.aiChatPaper

Rapport technique de RoboBrain 2.0

RoboBrain 2.0 Technical Report

July 2, 2025
Auteurs: BAAI RoboBrain Team, Mingyu Cao, Huajie Tan, Yuheng Ji, Minglan Lin, Zhiyu Li, Zhou Cao, Pengwei Wang, Enshen Zhou, Yi Han, Yingbo Tang, Xiangqi Xu, Wei Guo, Yaoxu Lyu, Yijie Xu, Jiayu Shi, Cheng Chi, Mengdi Zhao, Xiaoshuai Hao, Shanyu Rong, Zhengliang Cai, Bolun Zhang, Shuyi Zhang, Huaihai Lyu, Mengfei Du, Lingfeng Zhang, Xi Feng, Xiaodan Liu, Yance Jiao, Chenrui He, Mengsi Lyu, Zhuo Chen, Yulong Ao, Xue Sun, Zheqi He, Jingshu Zheng, Xi Yang, Donghai Shi, Kunchang Xie, Bochao Zhang, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang
cs.AI

Résumé

Nous présentons RoboBrain 2.0, notre dernière génération de modèles de base vision-langage incarnés, conçus pour unifier la perception, le raisonnement et la planification dans le cadre de tâches complexes en environnements physiques. Il est disponible en deux variantes : un modèle léger de 7 milliards de paramètres (7B) et un modèle complet de 32 milliards de paramètres (32B), doté d'une architecture hétérogène comprenant un encodeur visuel et un modèle de langage. Malgré sa taille compacte, RoboBrain 2.0 obtient des performances solides sur un large éventail de tâches de raisonnement incarné. Sur les benchmarks spatiaux et temporels, la variante 32B atteint des résultats de pointe, surpassant les modèles open-source et propriétaires précédents. En particulier, il prend en charge des capacités clés de l'IA incarnée pour le monde réel, notamment la compréhension spatiale (par exemple, prédiction d'affordance, référencement spatial, prévision de trajectoire) et la prise de décision temporelle (par exemple, interaction en boucle fermée, planification à long horizon multi-agent et mise à jour de graphes de scène). Ce rapport détaille l'architecture du modèle, la construction des données, les stratégies d'entraînement multi-étapes, l'infrastructure et les applications pratiques. Nous espérons que RoboBrain 2.0 fera progresser la recherche en IA incarnée et constituera une étape pratique vers la construction d'agents incarnés généralistes. Le code, le point de contrôle et les benchmarks sont disponibles à l'adresse https://superrobobrain.github.io.
English
We introduce RoboBrain 2.0, our latest generation of embodied vision-language foundation models, designed to unify perception, reasoning, and planning for complex embodied tasks in physical environments. It comes in two variants: a lightweight 7B model and a full-scale 32B model, featuring a heterogeneous architecture with a vision encoder and a language model. Despite its compact size, RoboBrain 2.0 achieves strong performance across a wide spectrum of embodied reasoning tasks. On both spatial and temporal benchmarks, the 32B variant achieves leading results, surpassing prior open-source and proprietary models. In particular, it supports key real-world embodied AI capabilities, including spatial understanding (e.g., affordance prediction, spatial referring, trajectory forecasting) and temporal decision-making (e.g., closed-loop interaction, multi-agent long-horizon planning, and scene graph updating). This report details the model architecture, data construction, multi-stage training strategies, infrastructure and practical applications. We hope RoboBrain 2.0 advances embodied AI research and serves as a practical step toward building generalist embodied agents. The code, checkpoint and benchmark are available at https://superrobobrain.github.io.
PDF181July 8, 2025