ChatPaper.aiChatPaper

RynnBrain: Открытые воплощённые базовые модели

RynnBrain: Open Embodied Foundation Models

February 13, 2026
Авторы: Ronghao Dang, Jiayan Guo, Bohan Hou, Sicong Leng, Kehan Li, Xin Li, Jiangpin Liu, Yunxuan Mao, Zhikai Wang, Yuqian Yuan, Minghao Zhu, Xiao Lin, Yang Bai, Qian Jiang, Yaxi Zhao, Minghua Zeng, Junlong Gao, Yuming Jiang, Jun Cen, Siteng Huang, Liuyi Wang, Wenqiao Zhang, Chengju Liu, Jianfei Yang, Shijian Lu, Deli Zhao
cs.AI

Аннотация

Несмотря на быстрый прогресс в мультимодальных базовых моделях, сообщество воплощенного интеллекта по-прежнему испытывает нехватку единой, основанной на физических принципах базовой модели, которая интегрирует восприятие, рассуждение и планирование в рамках реальной пространственно-временной динамики. Мы представляем RynnBrain — открытую пространственно-временную базовую модель для воплощенного интеллекта. RynnBrain усиливает четыре ключевые способности в единой архитектуре: всестороннее эгоцентрическое понимание, разнообразную пространственно-временную локализацию, физически обоснованное рассуждение и планирование с учетом физики. Семейство RynnBrain включает три масштаба базовых моделей (2B, 8B и 30B-A3B MoE) и четыре пост-обученных варианта, адаптированных для последующих воплощенных задач (а именно, RynnBrain-Nav, RynnBrain-Plan и RynnBrain-VLA) или сложных задач пространственного reasoning (а именно, RynnBrain-CoP). По результатам масштабных оценок на 20 бенчмарках для воплощенного интеллекта и 8 бенчмарках общего визуального понимания, наши базовые модели RynnBrain существенно превосходят существующие базовые модели для воплощенных систем с значительным отрывом. Набор пост-обученных моделей дополнительно подтверждает два ключевых потенциала базовой модели RynnBrain: (i) возможность физически обоснованного рассуждения и планирования и (ii) способность служить мощным предварительно обученным бэкбоном, который можно эффективно адаптировать для разнообразных воплощенных задач.
English
Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.
PDF434March 28, 2026