RynnBrain : Modèles de fondation ouverts incarnés

Résumé

Malgré les progrès rapides des modèles de fondation multimodaux, la communauté de l'intelligence incarnée manque encore d'un modèle de fondation unifié et physiquement ancré qui intègre la perception, le raisonnement et la planification dans la dynamique spatio-temporelle du monde réel. Nous présentons RynnBrain, un modèle de fondation spatio-temporel open-source pour l'intelligence incarnée. RynnBrain renforce quatre capacités fondamentales dans un cadre unifié : une compréhension égocentrique complète, une localisation spatio-temporelle diversifiée, un raisonnement physiquement ancré et une planification consciente de la physique. La famille RynnBrain comprend trois échelles de modèles de fondation (2B, 8B et 30B-A3B MoE) et quatre variantes post-entraînées adaptées aux tâches incarnées en aval (c'est-à-dire RynnBrain-Nav, RynnBrain-Plan et RynnBrain-VLA) ou aux tâches de raisonnement spatial complexe (c'est-à-dire RynnBrain-CoP). En termes d'évaluations approfondies sur 20 benchmarks d'intelligence incarnée et 8 benchmarks généraux de compréhension visuelle, nos modèles de fondation RynnBrain surpassent largement les modèles de fondation incarnés existants avec une marge significative. La suite de modèles post-entraînés confirme en outre deux potentiels clés du modèle de fondation RynnBrain : (i) permettre un raisonnement et une planification physiquement ancrés, et (ii) servir de backbone pré-entraîné solide pouvant être adapté efficacement à diverses tâches incarnées.

English

Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.

RynnBrain : Modèles de fondation ouverts incarnés

RynnBrain: Open Embodied Foundation Models

Résumé

Support