RynnBrain: Modelli Fondazionali Aperti ed Incorporati

Abstract

Nonostante i rapidi progressi nei modelli fondazionali multimodali, la comunità dell'intelligenza incarnata manca ancora di un modello fondazionale unificato e fisicamente ancorato che integri percezione, ragionamento e pianificazione all'interno delle dinamiche spazio-temporali del mondo reale. Presentiamo RynnBrain, un modello fondazionale spazio-temporale open-source per l'intelligenza incarnata. RynnBrain potenzia quattro capacità fondamentali in un quadro unificato: comprensione egocentrica completa, localizzazione spazio-temporale diversificata, ragionamento fisicamente fondato e pianificazione consapevole della fisica. La famiglia RynnBrain comprende tre dimensioni di modelli fondazionali (2B, 8B e 30B-A3B MoE) e quattro varianti post-addestrate ottimizzate per task incarnati a valle (ovvero, RynnBrain-Nav, RynnBrain-Plan e RynnBrain-VLA) o per compiti complessi di ragionamento spaziale (ovvero, RynnBrain-CoP). Sulla base di valutazioni estensive su 20 benchmark per l'intelligenza incarnata e 8 benchmark generali per la comprensione visiva, i nostri modelli fondazionali RynnBrain superano ampiamente i modelli fondazionali incarnati esistenti con un margine significativo. La suite di modelli post-addestrati conferma ulteriormente due potenzialità chiave del modello fondazionale RynnBrain: (i) abilitare ragionamento e pianificazione fisicamente fondati, e (ii) fungere da solida backbone pre-addestrata che può essere efficientemente adattata a svariati task incarnati.

English

Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.

RynnBrain: Modelli Fondazionali Aperti ed Incorporati

RynnBrain: Open Embodied Foundation Models

Abstract

Support