RynnBrain: Modelos de Fundação Corporificados Abertos

Resumo

Apesar dos rápidos avanços nos modelos de base multimodais, a comunidade de inteligência incorporada ainda carece de um modelo de base unificado e fisicamente fundamentado que integre percepção, raciocínio e planeamento dentro das dinâmicas espaço-temporais do mundo real. Apresentamos o RynnBrain, um modelo de base espaço-temporal de código aberto para inteligência incorporada. O RynnBrain fortalece quatro capacidades centrais numa estrutura unificada: compreensão egocêntrica abrangente, localização espaço-temporal diversificada, raciocínio fisicamente fundamentado e planeamento com consciência física. A família RynnBrain é composta por três escalas de modelo de base (2B, 8B e 30B-A3B MoE) e quatro variantes pós-treinadas adaptadas para tarefas incorporadas a jusante (ou seja, RynnBrain-Nav, RynnBrain-Plan e RynnBrain-VLA) ou para tarefas complexas de raciocínio espacial (ou seja, RynnBrain-CoP). Em termos de avaliações extensivas em 20 benchmarks de inteligência incorporada e 8 benchmarks gerais de compreensão visual, os nossos modelos de base RynnBrain superam largamente os modelos de base incorporados existentes por uma margem significativa. O conjunto de modelos pós-treinados substantiva ainda mais dois potenciais-chave do modelo de base RynnBrain: (i) permitir raciocínio e planeamento fisicamente fundamentados, e (ii) servir como uma forte espinha dorsal pré-treinada que pode ser adaptada de forma eficiente a diversas tarefas incorporadas.

English

Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.

RynnBrain: Modelos de Fundação Corporificados Abertos

RynnBrain: Open Embodied Foundation Models

Resumo

Support