RoboBrain 2.5: La Profundidad a la Vista, el Tiempo en Mente
RoboBrain 2.5: Depth in Sight, Time in Mind
January 20, 2026
Autores: Huajie Tan, Enshen Zhou, Zhiyu Li, Yijie Xu, Yuheng Ji, Xiansheng Chen, Cheng Chi, Pengwei Wang, Huizhu Jia, Yulong Ao, Mingyu Cao, Sixiang Chen, Zhe Li, Mengzhen Liu, Zixiao Wang, Shanyu Rong, Yaoxu Lyu, Zhongxia Zhao, Peterson Co, Yibo Li, Yi Han, Shaoxuan Xie, Guocai Yao, Songjing Wang, Leiduo Zhang, Xi Yang, Yance Jiao, Donghai Shi, Kunchang Xie, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang
cs.AI
Resumen
Presentamos RoboBrain 2.5, un modelo fundacional de IA encarnada de próxima generación que avanza en la percepción general, el razonamiento espacial y el modelado temporal mediante un extenso entrenamiento con supervisión espaciotemporal de alta calidad. Basándose en su predecesor, RoboBrain 2.5 introduce dos mejoras principales de capacidad. Específicamente, desbloquea el **Razonamiento Espacial 3D Preciso** al pasar de una anclaje relativo a píxeles en 2D a la predicción de coordenadas consciente de la profundidad y la comprensión de restricciones métricas absolutas, generando trazas completas de manipulación 3D como secuencias ordenadas de puntos clave bajo restricciones físicas. Complementando esta precisión espacial, el modelo establece una **Estimación Densa de Valor Temporal** que proporciona una predicción de progreso densa y consciente de los pasos, junto con una comprensión del estado de ejecución desde diferentes puntos de vista, produciendo señales de retroalimentación estables para el aprendizaje descendente. En conjunto, estas mejoras extienden el marco hacia una inteligencia encarnada más fundamentada físicamente y consciente de la ejecución para manipulaciones complejas y de grano fino. El código y los puntos de control están disponibles en el sitio web del proyecto: https://superrobobrain.github.io
English
We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io