RoboBrain 2.5: Глубина в поле зрения, время в сознании

Аннотация

Мы представляем RoboBrain 2.5 — флагманскую модель воплощенного искусственного интеллекта следующего поколения, которая развивает общее восприятие, пространственное мышление и временное моделирование за счет масштабного обучения на высококачественных пространственно-временных данных. По сравнению с предыдущей версией, RoboBrain 2.5 получает два ключевых усовершенствования. В частности, модель реализует **Точное 3D-пространственное рассуждение** за счет перехода от относительного позиционирования в 2D-пикселях к прогнозированию координат с учетом глубины и пониманию абсолютных метрических ограничений, генерируя полные 3D-траектории манипулирования в виде упорядоченных последовательностей ключевых точек с учетом физических ограничений. Дополняя пространственную точность, модель оснащается **Плотной временной оценкой состояний**, которая обеспечивает плотное, пошаговое прогнозирование прогресса и понимание состояния выполнения задач с различных точек обзора, создавая стабильные сигналы обратной связи для последующего обучения. Вместе эти улучшения расширяют фреймворк в сторону более физически обоснованного и ориентированного на исполнение воплощенного интеллекта для сложных, тонкоструктурированных манипуляций. Код и веса модели доступны на сайте проекта: https://superrobobrain.github.io.

English

We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io

RoboBrain 2.5: Глубина в поле зрения, время в сознании

RoboBrain 2.5: Depth in Sight, Time in Mind

Аннотация

Support