ChatPaper.aiChatPaper

Informe Técnico de RoboBrain 2.0

RoboBrain 2.0 Technical Report

July 2, 2025
Autores: BAAI RoboBrain Team, Mingyu Cao, Huajie Tan, Yuheng Ji, Minglan Lin, Zhiyu Li, Zhou Cao, Pengwei Wang, Enshen Zhou, Yi Han, Yingbo Tang, Xiangqi Xu, Wei Guo, Yaoxu Lyu, Yijie Xu, Jiayu Shi, Cheng Chi, Mengdi Zhao, Xiaoshuai Hao, Shanyu Rong, Zhengliang Cai, Bolun Zhang, Shuyi Zhang, Huaihai Lyu, Mengfei Du, Lingfeng Zhang, Xi Feng, Xiaodan Liu, Yance Jiao, Chenrui He, Mengsi Lyu, Zhuo Chen, Yulong Ao, Xue Sun, Zheqi He, Jingshu Zheng, Xi Yang, Donghai Shi, Kunchang Xie, Bochao Zhang, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang
cs.AI

Resumen

Presentamos RoboBrain 2.0, nuestra última generación de modelos fundamentales de visión-lenguaje encarnados, diseñados para unificar la percepción, el razonamiento y la planificación de tareas complejas en entornos físicos. Está disponible en dos variantes: un modelo ligero de 7B y un modelo completo de 32B, que cuenta con una arquitectura heterogénea que incluye un codificador de visión y un modelo de lenguaje. A pesar de su tamaño compacto, RoboBrain 2.0 logra un rendimiento sólido en una amplia gama de tareas de razonamiento encarnado. En los puntos de referencia tanto espaciales como temporales, la variante de 32B obtiene resultados líderes, superando a modelos anteriores de código abierto y propietarios. En particular, admite capacidades clave de IA encarnada en el mundo real, como la comprensión espacial (por ejemplo, predicción de affordances, referencia espacial, pronóstico de trayectorias) y la toma de decisiones temporales (por ejemplo, interacción en bucle cerrado, planificación a largo plazo multiagente y actualización de grafos de escena). Este informe detalla la arquitectura del modelo, la construcción de datos, las estrategias de entrenamiento en múltiples etapas, la infraestructura y las aplicaciones prácticas. Esperamos que RoboBrain 2.0 impulse la investigación en IA encarnada y sirva como un paso práctico hacia la construcción de agentes encarnados generalistas. El código, el punto de control y los puntos de referencia están disponibles en https://superrobobrain.github.io.
English
We introduce RoboBrain 2.0, our latest generation of embodied vision-language foundation models, designed to unify perception, reasoning, and planning for complex embodied tasks in physical environments. It comes in two variants: a lightweight 7B model and a full-scale 32B model, featuring a heterogeneous architecture with a vision encoder and a language model. Despite its compact size, RoboBrain 2.0 achieves strong performance across a wide spectrum of embodied reasoning tasks. On both spatial and temporal benchmarks, the 32B variant achieves leading results, surpassing prior open-source and proprietary models. In particular, it supports key real-world embodied AI capabilities, including spatial understanding (e.g., affordance prediction, spatial referring, trajectory forecasting) and temporal decision-making (e.g., closed-loop interaction, multi-agent long-horizon planning, and scene graph updating). This report details the model architecture, data construction, multi-stage training strategies, infrastructure and practical applications. We hope RoboBrain 2.0 advances embodied AI research and serves as a practical step toward building generalist embodied agents. The code, checkpoint and benchmark are available at https://superrobobrain.github.io.
PDF181July 8, 2025