ChatPaper.aiChatPaper

RoboBrain 2.5: Tiefe im Blick, Zeit im Sinn

RoboBrain 2.5: Depth in Sight, Time in Mind

January 20, 2026
papers.authors: Huajie Tan, Enshen Zhou, Zhiyu Li, Yijie Xu, Yuheng Ji, Xiansheng Chen, Cheng Chi, Pengwei Wang, Huizhu Jia, Yulong Ao, Mingyu Cao, Sixiang Chen, Zhe Li, Mengzhen Liu, Zixiao Wang, Shanyu Rong, Yaoxu Lyu, Zhongxia Zhao, Peterson Co, Yibo Li, Yi Han, Shaoxuan Xie, Guocai Yao, Songjing Wang, Leiduo Zhang, Xi Yang, Yance Jiao, Donghai Shi, Kunchang Xie, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang
cs.AI

papers.abstract

Wir stellen RoboBrain 2.5 vor, ein Next-Generation-Embodied-AI-Foundation-Model, das durch umfangreiches Training mit hochwertiger raumzeitlicher Supervision die allgemeine Wahrnehmung, das räumliche Schließen und die zeitliche Modellierung vorantreibt. Aufbauend auf seinem Vorgänger führt RoboBrain 2.5 zwei wesentliche Funktionserweiterungen ein. Konkret erschließt das Modell *Präzises 3D-Räumliches Schließen*, indem es von einer 2D-pixelrelativen Verankerung zu einer tiefenbewussten Koordinatenvorhersage und einem Verständnis absoluter metrischer Constraints übergeht. Es generiert vollständige 3D-Bewegungstrajektorien als geordnete Keypoint-Sequenzen unter physikalischen Randbedingungen. Ergänzend zu dieser räumlichen Präzision etabliert das Modell eine *Dichte Zeitliche Werteinschätzung*, die eine dichte, schrittbewusste Fortschrittsvorhersage und ein Verständnis des Ausführungszustands über verschiedene Blickwinkel hinweg bereitstellt und damit stabile Feedback-Signale für nachgelagertes Lernen erzeugt. Gemeinsam erweitern diese Verbesserungen das Framework hin zu einer stärker physikalisch fundierten und ausführungsbewussten verkörperten Intelligenz für komplexe, feinkörnige Manipulationsaufgaben. Der Code und die Checkpoints sind auf der Projektwebsite verfügbar: https://superrobobrain.github.io
English
We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io
PDF60January 23, 2026