RoboBrain 2.5: La Profondità in Vista, il Tempo in Mente

Abstract

Presentiamo RoboBrain 2.5, un modello fondante di intelligenza artificiale incarnata di prossima generazione che avanza nella percezione generale, nel ragionamento spaziale e nella modellazione temporale attraverso un addestramento esteso su supervisione spaziotemporale di alta qualità. Basandosi sul suo predecessore, RoboBrain 2.5 introduce due importanti miglioramenti delle capacità. Nello specifico, sblocca il *Ragionamento Spaziale 3D Preciso* spostandosi da un ancoraggio relativo ai pixel 2D alla previsione di coordinate consapevole della profondità e alla comprensione di vincoli metrici assoluti, generando tracce complete di manipolazione 3D come sequenze ordinate di punti chiave sotto vincoli fisici. A complemento di questa precisione spaziale, il modello stabilisce una *Stima Densa del Valore Temporale* che fornisce una previsione densa del progresso, consapevole del passo, e una comprensione dello stato di esecuzione attraverso diversi punti di vista, producendo segnali di feedback stabili per l'apprendimento a valle. Insieme, questi aggiornamenti estendono il framework verso un'intelligenza incarnata più ancorata alla realtà fisica e consapevole dell'esecuzione, destinata a manipolazioni complesse e a grana fine. Il codice e i checkpoint sono disponibili sul sito web del progetto: https://superrobobrain.github.io.

English

We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io

RoboBrain 2.5: La Profondità in Vista, il Tempo in Mente

RoboBrain 2.5: Depth in Sight, Time in Mind

Abstract

Support