ChatPaper.aiChatPaper

로보브레인 2.0 기술 보고서

RoboBrain 2.0 Technical Report

July 2, 2025
저자: BAAI RoboBrain Team, Mingyu Cao, Huajie Tan, Yuheng Ji, Minglan Lin, Zhiyu Li, Zhou Cao, Pengwei Wang, Enshen Zhou, Yi Han, Yingbo Tang, Xiangqi Xu, Wei Guo, Yaoxu Lyu, Yijie Xu, Jiayu Shi, Cheng Chi, Mengdi Zhao, Xiaoshuai Hao, Shanyu Rong, Zhengliang Cai, Bolun Zhang, Shuyi Zhang, Huaihai Lyu, Mengfei Du, Lingfeng Zhang, Xi Feng, Xiaodan Liu, Yance Jiao, Chenrui He, Mengsi Lyu, Zhuo Chen, Yulong Ao, Xue Sun, Zheqi He, Jingshu Zheng, Xi Yang, Donghai Shi, Kunchang Xie, Bochao Zhang, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang
cs.AI

초록

물리적 환경에서 복잡한 구체적 작업을 위한 인지, 추론, 계획을 통합하도록 설계된 최신 세대의 구체적 비전-언어 기반 모델인 RoboBrain 2.0을 소개합니다. 이 모델은 경량 7B 버전과 전체 규모 32B 버전의 두 가지 변형으로 제공되며, 비전 인코더와 언어 모델로 구성된 이기종 아키텍처를 특징으로 합니다. RoboBrain 2.0은 컴팩트한 크기임에도 불구하고 다양한 구체적 추론 작업에서 강력한 성능을 달성합니다. 공간적 및 시간적 벤치마크에서 32B 변형은 기존의 오픈소스 및 독점 모델을 능가하는 선두적인 결과를 보여줍니다. 특히, 이 모델은 공간 이해(예: 어포던스 예측, 공간 참조, 궤적 예측) 및 시간적 의사결정(예: 폐루프 상호작용, 다중 에이전트 장기 계획, 장면 그래프 업데이트)을 포함한 핵심 실세계 구체적 AI 기능을 지원합니다. 본 보고서는 모델 아키텍처, 데이터 구성, 다단계 학습 전략, 인프라 및 실제 응용 사례를 상세히 설명합니다. RoboBrain 2.0이 구체적 AI 연구를 발전시키고 일반적인 구체적 에이전트 구축을 위한 실질적인 단계로 기여하기를 바랍니다. 코드, 체크포인트 및 벤치마크는 https://superrobobrain.github.io에서 확인할 수 있습니다.
English
We introduce RoboBrain 2.0, our latest generation of embodied vision-language foundation models, designed to unify perception, reasoning, and planning for complex embodied tasks in physical environments. It comes in two variants: a lightweight 7B model and a full-scale 32B model, featuring a heterogeneous architecture with a vision encoder and a language model. Despite its compact size, RoboBrain 2.0 achieves strong performance across a wide spectrum of embodied reasoning tasks. On both spatial and temporal benchmarks, the 32B variant achieves leading results, surpassing prior open-source and proprietary models. In particular, it supports key real-world embodied AI capabilities, including spatial understanding (e.g., affordance prediction, spatial referring, trajectory forecasting) and temporal decision-making (e.g., closed-loop interaction, multi-agent long-horizon planning, and scene graph updating). This report details the model architecture, data construction, multi-stage training strategies, infrastructure and practical applications. We hope RoboBrain 2.0 advances embodied AI research and serves as a practical step toward building generalist embodied agents. The code, checkpoint and benchmark are available at https://superrobobrain.github.io.
PDF181July 8, 2025