RoboBrain 2.0 技術報告書
RoboBrain 2.0 Technical Report
July 2, 2025
著者: BAAI RoboBrain Team, Mingyu Cao, Huajie Tan, Yuheng Ji, Minglan Lin, Zhiyu Li, Zhou Cao, Pengwei Wang, Enshen Zhou, Yi Han, Yingbo Tang, Xiangqi Xu, Wei Guo, Yaoxu Lyu, Yijie Xu, Jiayu Shi, Cheng Chi, Mengdi Zhao, Xiaoshuai Hao, Shanyu Rong, Zhengliang Cai, Bolun Zhang, Shuyi Zhang, Huaihai Lyu, Mengfei Du, Lingfeng Zhang, Xi Feng, Xiaodan Liu, Yance Jiao, Chenrui He, Mengsi Lyu, Zhuo Chen, Yulong Ao, Xue Sun, Zheqi He, Jingshu Zheng, Xi Yang, Donghai Shi, Kunchang Xie, Bochao Zhang, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang
cs.AI
要旨
私たちは、物理環境における複雑なエンボディードタスクのための知覚、推論、計画を統合するように設計された、最新世代のエンボディード視覚言語基盤モデル「RoboBrain 2.0」を紹介します。このモデルは、軽量版の7Bモデルとフルスケールの32Bモデルの2つのバリエーションを提供し、視覚エンコーダと言語モデルを備えた異種アーキテクチャを特徴としています。コンパクトなサイズにもかかわらず、RoboBrain 2.0は幅広いエンボディード推論タスクにおいて高い性能を発揮します。空間的および時間的ベンチマークにおいて、32Bバリエーションは先行するオープンソースおよびプロプライエタリモデルを凌駕し、リーディングな結果を達成しています。特に、空間理解(例:アフォーダンス予測、空間参照、軌道予測)や時間的意志決定(例:閉ループインタラクション、マルチエージェント長期計画、シーングラフ更新)といった、現実世界のエンボディードAIに不可欠な能力をサポートしています。本報告書では、モデルアーキテクチャ、データ構築、多段階トレーニング戦略、インフラストラクチャ、および実用的なアプリケーションについて詳細に説明します。RoboBrain 2.0がエンボディードAI研究を進展させ、汎用エンボディードエージェント構築に向けた実践的な一歩となることを期待しています。コード、チェックポイント、ベンチマークはhttps://superrobobrain.github.ioで公開されています。
English
We introduce RoboBrain 2.0, our latest generation of embodied vision-language
foundation models, designed to unify perception, reasoning, and planning for
complex embodied tasks in physical environments. It comes in two variants: a
lightweight 7B model and a full-scale 32B model, featuring a heterogeneous
architecture with a vision encoder and a language model. Despite its compact
size, RoboBrain 2.0 achieves strong performance across a wide spectrum of
embodied reasoning tasks. On both spatial and temporal benchmarks, the 32B
variant achieves leading results, surpassing prior open-source and proprietary
models. In particular, it supports key real-world embodied AI capabilities,
including spatial understanding (e.g., affordance prediction, spatial
referring, trajectory forecasting) and temporal decision-making (e.g.,
closed-loop interaction, multi-agent long-horizon planning, and scene graph
updating). This report details the model architecture, data construction,
multi-stage training strategies, infrastructure and practical applications. We
hope RoboBrain 2.0 advances embodied AI research and serves as a practical step
toward building generalist embodied agents. The code, checkpoint and benchmark
are available at https://superrobobrain.github.io.