RoboBrain 2.5 : La Profondeur en Vue, le Temps en Tête

Résumé

Nous présentons RoboBrain 2.5, un modèle fondateur d'intelligence artificielle incarnée de nouvelle génération qui fait progresser la perception générale, le raisonnement spatial et la modélisation temporelle grâce à un apprentissage extensif sur une supervision spatiotemporelle de haute qualité. Reposant sur son prédécesseur, RoboBrain 2.5 introduit deux améliorations majeures de capacités. Concrètement, il déverrouille le Raisonnement Spatial 3D Précis en passant d'un ancrage relatif aux pixels 2D à une prédiction de coordonnées consciente de la profondeur et à une compréhension des contraintes métriques absolues, générant des traces complètes de manipulation 3D sous forme de séquences ordonnées de points-clés respectant des contraintes physiques. Complétant cette précision spatiale, le modèle établit une Estimation de Valeur Temporelle Dense qui fournit une prédiction dense de la progression consciente des étapes et une compréhension de l'état d'exécution sous différents points de vue, produisant des signaux de retour stables pour l'apprentissage en aval. Ensemble, ces améliorations étendent le cadre vers une intelligence incarnée plus ancrée physiquement et consciente de l'exécution pour des manipulations complexes et à granularité fine. Le code et les points de contrôle sont disponibles sur le site du projet : https://superrobobrain.github.io

English

We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io

RoboBrain 2.5 : La Profondeur en Vue, le Temps en Tête

RoboBrain 2.5: Depth in Sight, Time in Mind

Résumé

Support