Relatório Técnico do RoboBrain 2.0
RoboBrain 2.0 Technical Report
July 2, 2025
Autores: BAAI RoboBrain Team, Mingyu Cao, Huajie Tan, Yuheng Ji, Minglan Lin, Zhiyu Li, Zhou Cao, Pengwei Wang, Enshen Zhou, Yi Han, Yingbo Tang, Xiangqi Xu, Wei Guo, Yaoxu Lyu, Yijie Xu, Jiayu Shi, Cheng Chi, Mengdi Zhao, Xiaoshuai Hao, Shanyu Rong, Zhengliang Cai, Bolun Zhang, Shuyi Zhang, Huaihai Lyu, Mengfei Du, Lingfeng Zhang, Xi Feng, Xiaodan Liu, Yance Jiao, Chenrui He, Mengsi Lyu, Zhuo Chen, Yulong Ao, Xue Sun, Zheqi He, Jingshu Zheng, Xi Yang, Donghai Shi, Kunchang Xie, Bochao Zhang, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang
cs.AI
Resumo
Apresentamos o RoboBrain 2.0, nossa mais recente geração de modelos fundamentais de visão e linguagem incorporada, projetados para unificar percepção, raciocínio e planejamento para tarefas complexas em ambientes físicos. Ele está disponível em duas variantes: um modelo leve de 7B e um modelo em escala completa de 32B, com uma arquitetura heterogênea que inclui um codificador de visão e um modelo de linguagem. Apesar de seu tamanho compacto, o RoboBrain 2.0 alcança um desempenho robusto em uma ampla gama de tarefas de raciocínio incorporado. Tanto em benchmarks espaciais quanto temporais, a variante de 32B obtém resultados líderes, superando modelos anteriores de código aberto e proprietários. Em particular, ele suporta capacidades essenciais de IA incorporada no mundo real, incluindo compreensão espacial (por exemplo, previsão de affordance, referência espacial, previsão de trajetória) e tomada de decisão temporal (por exemplo, interação em loop fechado, planejamento de longo prazo multiagente e atualização de grafos de cena). Este relatório detalha a arquitetura do modelo, a construção de dados, as estratégias de treinamento em múltiplos estágios, a infraestrutura e as aplicações práticas. Esperamos que o RoboBrain 2.0 avance a pesquisa em IA incorporada e sirva como um passo prático para a construção de agentes incorporados generalistas. O código, o checkpoint e o benchmark estão disponíveis em https://superrobobrain.github.io.
English
We introduce RoboBrain 2.0, our latest generation of embodied vision-language
foundation models, designed to unify perception, reasoning, and planning for
complex embodied tasks in physical environments. It comes in two variants: a
lightweight 7B model and a full-scale 32B model, featuring a heterogeneous
architecture with a vision encoder and a language model. Despite its compact
size, RoboBrain 2.0 achieves strong performance across a wide spectrum of
embodied reasoning tasks. On both spatial and temporal benchmarks, the 32B
variant achieves leading results, surpassing prior open-source and proprietary
models. In particular, it supports key real-world embodied AI capabilities,
including spatial understanding (e.g., affordance prediction, spatial
referring, trajectory forecasting) and temporal decision-making (e.g.,
closed-loop interaction, multi-agent long-horizon planning, and scene graph
updating). This report details the model architecture, data construction,
multi-stage training strategies, infrastructure and practical applications. We
hope RoboBrain 2.0 advances embodied AI research and serves as a practical step
toward building generalist embodied agents. The code, checkpoint and benchmark
are available at https://superrobobrain.github.io.