ChatPaper.aiChatPaper

RoboBrain 2.5: Profundidade à Vista, Tempo em Mente

RoboBrain 2.5: Depth in Sight, Time in Mind

January 20, 2026
Autores: Huajie Tan, Enshen Zhou, Zhiyu Li, Yijie Xu, Yuheng Ji, Xiansheng Chen, Cheng Chi, Pengwei Wang, Huizhu Jia, Yulong Ao, Mingyu Cao, Sixiang Chen, Zhe Li, Mengzhen Liu, Zixiao Wang, Shanyu Rong, Yaoxu Lyu, Zhongxia Zhao, Peterson Co, Yibo Li, Yi Han, Shaoxuan Xie, Guocai Yao, Songjing Wang, Leiduo Zhang, Xi Yang, Yance Jiao, Donghai Shi, Kunchang Xie, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang
cs.AI

Resumo

Apresentamos o RoboBrain 2.5, um modelo de base de IA incorporada de próxima geração que avança na percepção geral, no raciocínio espacial e na modelagem temporal por meio de um treinamento extensivo com supervisão espaço-temporal de alta qualidade. Com base em seu predecessor, o RoboBrain 2.5 introduz duas grandes atualizações de capacidade. Especificamente, ele desbloqueia o **Raciocínio Espacial 3D Preciso** ao passar de uma ancoragem relativa a pixels 2D para uma compreensão de previsão de coordenadas consciente da profundidade e de restrições métricas absolutas, gerando traços completos de manipulação 3D como sequências ordenadas de pontos-chave sob restrições físicas. Complementando esta precisão espacial, o modelo estabelece a **Estimativa de Valor Temporal Densa**, que fornece uma previsão de progresso densa e consciente da etapa, além da compreensão do estado de execução através de diferentes pontos de vista, produzindo sinais de feedback estáveis para aprendizado downstream. Juntas, essas atualizações estendem a estrutura em direção a uma inteligência incorporada mais fundamentada fisicamente e consciente da execução para manipulações complexas e de granularidade fina. O código e os *checkpoints* estão disponíveis no site do projeto: https://superrobobrain.github.io
English
We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io
PDF91February 7, 2026