RynnBrain: Открытые воплощённые базовые модели

Аннотация

Несмотря на быстрый прогресс в мультимодальных базовых моделях, сообщество воплощенного интеллекта по-прежнему испытывает нехватку единой, основанной на физических принципах базовой модели, которая интегрирует восприятие, рассуждение и планирование в рамках реальной пространственно-временной динамики. Мы представляем RynnBrain — открытую пространственно-временную базовую модель для воплощенного интеллекта. RynnBrain усиливает четыре ключевые способности в единой архитектуре: всестороннее эгоцентрическое понимание, разнообразную пространственно-временную локализацию, физически обоснованное рассуждение и планирование с учетом физики. Семейство RynnBrain включает три масштаба базовых моделей (2B, 8B и 30B-A3B MoE) и четыре пост-обученных варианта, адаптированных для последующих воплощенных задач (а именно, RynnBrain-Nav, RynnBrain-Plan и RynnBrain-VLA) или сложных задач пространственного reasoning (а именно, RynnBrain-CoP). По результатам масштабных оценок на 20 бенчмарках для воплощенного интеллекта и 8 бенчмарках общего визуального понимания, наши базовые модели RynnBrain существенно превосходят существующие базовые модели для воплощенных систем с значительным отрывом. Набор пост-обученных моделей дополнительно подтверждает два ключевых потенциала базовой модели RynnBrain: (i) возможность физически обоснованного рассуждения и планирования и (ii) способность служить мощным предварительно обученным бэкбоном, который можно эффективно адаптировать для разнообразных воплощенных задач.

English

Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.

RynnBrain: Открытые воплощённые базовые модели

RynnBrain: Open Embodied Foundation Models

Аннотация

Support