ChatPaper.aiChatPaper

RynnBrain: Modelli Fondazionali Aperti ed Incorporati

RynnBrain: Open Embodied Foundation Models

February 13, 2026
Autori: Ronghao Dang, Jiayan Guo, Bohan Hou, Sicong Leng, Kehan Li, Xin Li, Jiangpin Liu, Yunxuan Mao, Zhikai Wang, Yuqian Yuan, Minghao Zhu, Xiao Lin, Yang Bai, Qian Jiang, Yaxi Zhao, Minghua Zeng, Junlong Gao, Yuming Jiang, Jun Cen, Siteng Huang, Liuyi Wang, Wenqiao Zhang, Chengju Liu, Jianfei Yang, Shijian Lu, Deli Zhao
cs.AI

Abstract

Nonostante i rapidi progressi nei modelli fondazionali multimodali, la comunità dell'intelligenza incarnata manca ancora di un modello fondazionale unificato e fisicamente ancorato che integri percezione, ragionamento e pianificazione all'interno delle dinamiche spazio-temporali del mondo reale. Presentiamo RynnBrain, un modello fondazionale spazio-temporale open-source per l'intelligenza incarnata. RynnBrain potenzia quattro capacità fondamentali in un quadro unificato: comprensione egocentrica completa, localizzazione spazio-temporale diversificata, ragionamento fisicamente fondato e pianificazione consapevole della fisica. La famiglia RynnBrain comprende tre dimensioni di modelli fondazionali (2B, 8B e 30B-A3B MoE) e quattro varianti post-addestrate ottimizzate per task incarnati a valle (ovvero, RynnBrain-Nav, RynnBrain-Plan e RynnBrain-VLA) o per compiti complessi di ragionamento spaziale (ovvero, RynnBrain-CoP). Sulla base di valutazioni estensive su 20 benchmark per l'intelligenza incarnata e 8 benchmark generali per la comprensione visiva, i nostri modelli fondazionali RynnBrain superano ampiamente i modelli fondazionali incarnati esistenti con un margine significativo. La suite di modelli post-addestrati conferma ulteriormente due potenzialità chiave del modello fondazionale RynnBrain: (i) abilitare ragionamento e pianificazione fisicamente fondati, e (ii) fungere da solida backbone pre-addestrata che può essere efficientemente adattata a svariati task incarnati.
English
Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.
PDF434March 28, 2026