RynnBrain: Modelos Fundacionales Abiertos de Embodiment

Resumen

A pesar del rápido progreso en los modelos fundacionales multimodales, la comunidad de la inteligencia corporeizada aún carece de un modelo fundacional unificado y físicamente fundamentado que integre la percepción, el razonamiento y la planificación dentro de las dinámicas espacio-temporales del mundo real. Presentamos RynnBrain, un modelo fundacional espacio-temporal de código abierto para la inteligencia corporeizada. RynnBrain fortalece cuatro capacidades centrales en un marco unificado: comprensión egocéntrica integral, localización espacio-temporal diversa, razonamiento físicamente fundamentado y planificación consciente de la física. La familia RynnBrain comprende tres escalas de modelos fundacionales (2B, 8B y 30B-A3B MoE) y cuatro variantes post-entrenadas adaptadas para tareas corporeizadas posteriores (es decir, RynnBrain-Nav, RynnBrain-Plan y RynnBrain-VLA) o para tareas complejas de razonamiento espacial (es decir, RynnBrain-CoP). En términos de evaluaciones exhaustivas en 20 benchmarks de inteligencia corporeizada y 8 benchmarks generales de comprensión visual, nuestros modelos fundacionales RynnBrain superan ampliamente a los modelos fundacionales corporeizados existentes por un margen significativo. El conjunto de modelos post-entrenados sustancia además dos potencialidades clave del modelo fundacional RynnBrain: (i) permitir un razonamiento y una planificación físicamente fundamentados, y (ii) servir como una sólida columna vertebral preentrenada que puede adaptarse eficientemente a diversas tareas corporeizadas.

English

Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.

RynnBrain: Modelos Fundacionales Abiertos de Embodiment

RynnBrain: Open Embodied Foundation Models

Resumen

Support