ChatPaper.aiChatPaper

RoboBrain 2.5: Diepte in Zicht, Tijd in Gedachten

RoboBrain 2.5: Depth in Sight, Time in Mind

January 20, 2026
Auteurs: Huajie Tan, Enshen Zhou, Zhiyu Li, Yijie Xu, Yuheng Ji, Xiansheng Chen, Cheng Chi, Pengwei Wang, Huizhu Jia, Yulong Ao, Mingyu Cao, Sixiang Chen, Zhe Li, Mengzhen Liu, Zixiao Wang, Shanyu Rong, Yaoxu Lyu, Zhongxia Zhao, Peterson Co, Yibo Li, Yi Han, Shaoxuan Xie, Guocai Yao, Songjing Wang, Leiduo Zhang, Xi Yang, Yance Jiao, Donghai Shi, Kunchang Xie, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang
cs.AI

Samenvatting

Wij introduceren RoboBrain 2.5, een next-generation belichaamd AI-fundamentmodel dat algemene perceptie, ruimtelijk redeneren en temporele modellering bevordert door middel van uitgebreide training op hoogwaardige spatiotemporele supervisie. Voortbouwend op zijn voorganger introduceert RoboBrain 2.5 twee belangrijke capaciteitsverbeteringen. Concreet ontgrendelt het *Precies 3D-Ruimtelijk Redeneren* door de overgang van 2D pixel-relatief gronden naar diepte-bewuste coördinaatvoorspelling en begrip van absolute metrieke beperkingen, waarbij complete 3D-manipulatiesporen worden gegenereerd als geordende keypoint-reeksen onder fysieke beperkingen. Als aanvulling op deze ruimtelijke precisie vestigt het model *Dichte Temporele Waardeschatting* dat dichte, stap-bewuste voortgangsvoorspelling en begrip van de uitvoeringstoestand biedt over verschillende gezichtspunten, waardoor stabiele feedbacksignalen worden geproduceerd voor downstream leren. Gezamenlijk breiden deze upgrades het framework uit naar meer fysiek gefundeerde en uitvoering-bewuste belichaamde intelligentie voor complexe, fijnmazige manipulatie. De code en checkpoints zijn beschikbaar op de projectwebsite: https://superrobobrain.github.io
English
We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io
PDF91February 7, 2026