ChatPaper.aiChatPaper

Technisch Rapport RoboBrain 2.0

RoboBrain 2.0 Technical Report

July 2, 2025
Auteurs: BAAI RoboBrain Team, Mingyu Cao, Huajie Tan, Yuheng Ji, Minglan Lin, Zhiyu Li, Zhou Cao, Pengwei Wang, Enshen Zhou, Yi Han, Yingbo Tang, Xiangqi Xu, Wei Guo, Yaoxu Lyu, Yijie Xu, Jiayu Shi, Cheng Chi, Mengdi Zhao, Xiaoshuai Hao, Shanyu Rong, Zhengliang Cai, Bolun Zhang, Shuyi Zhang, Huaihai Lyu, Mengfei Du, Lingfeng Zhang, Xi Feng, Xiaodan Liu, Yance Jiao, Chenrui He, Mengsi Lyu, Zhuo Chen, Yulong Ao, Xue Sun, Zheqi He, Jingshu Zheng, Xi Yang, Donghai Shi, Kunchang Xie, Bochao Zhang, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang
cs.AI

Samenvatting

We introduceren RoboBrain 2.0, onze nieuwste generatie van belichaamde vision-language foundation-modellen, ontworpen om perceptie, redeneren en planning te verenigen voor complexe belichaamde taken in fysieke omgevingen. Het is beschikbaar in twee varianten: een lichtgewicht 7B-model en een volledig 32B-model, met een heterogene architectuur bestaande uit een vision-encoder en een taalmodel. Ondanks zijn compacte formaat behaalt RoboBrain 2.0 sterke prestaties op een breed scala aan belichaamde redeneertaken. Op zowel ruimtelijke als temporele benchmarks behaalt de 32B-variant toonaangevende resultaten, waarmee het eerdere open-source en propriëtaire modellen overtreft. In het bijzonder ondersteunt het essentiële real-world belichaamde AI-mogelijkheden, waaronder ruimtelijk begrip (bijv. affordance-voorspelling, ruimtelijke verwijzing, trajectvoorspelling) en temporele besluitvorming (bijv. gesloten-lus interactie, multi-agent lange-termijnplanning en scenegraph-updates). Dit rapport gaat in detail in op de modelarchitectuur, dataconstructie, meerfasige trainingsstrategieën, infrastructuur en praktische toepassingen. We hopen dat RoboBrain 2.0 onderzoek naar belichaamde AI vooruit helpt en een praktische stap vormt naar het bouwen van generalistische belichaamde agents. De code, checkpoint en benchmark zijn beschikbaar op https://superrobobrain.github.io.
English
We introduce RoboBrain 2.0, our latest generation of embodied vision-language foundation models, designed to unify perception, reasoning, and planning for complex embodied tasks in physical environments. It comes in two variants: a lightweight 7B model and a full-scale 32B model, featuring a heterogeneous architecture with a vision encoder and a language model. Despite its compact size, RoboBrain 2.0 achieves strong performance across a wide spectrum of embodied reasoning tasks. On both spatial and temporal benchmarks, the 32B variant achieves leading results, surpassing prior open-source and proprietary models. In particular, it supports key real-world embodied AI capabilities, including spatial understanding (e.g., affordance prediction, spatial referring, trajectory forecasting) and temporal decision-making (e.g., closed-loop interaction, multi-agent long-horizon planning, and scene graph updating). This report details the model architecture, data construction, multi-stage training strategies, infrastructure and practical applications. We hope RoboBrain 2.0 advances embodied AI research and serves as a practical step toward building generalist embodied agents. The code, checkpoint and benchmark are available at https://superrobobrain.github.io.
PDF321July 8, 2025