Технический отчет RoboBrain 2.0

Аннотация

Мы представляем RoboBrain 2.0 — новое поколение воплощенных мультимодальных моделей, объединяющих восприятие, рассуждение и планирование для выполнения сложных задач в физических средах. Модель представлена в двух вариантах: облегченная версия на 7 миллиардов параметров и полномасштабная версия на 32 миллиарда параметров, использующая гетерогенную архитектуру с визуальным кодировщиком и языковой моделью. Несмотря на компактные размеры, RoboBrain 2.0 демонстрирует высокую производительность в широком спектре задач, связанных с воплощенным рассуждением. На пространственных и временных тестах 32-миллиардная версия достигает лидирующих результатов, превосходя предыдущие открытые и проприетарные модели. В частности, она поддерживает ключевые возможности воплощенного ИИ, включая пространственное понимание (например, предсказание аффордансов, пространственные ссылки, прогнозирование траекторий) и временное принятие решений (например, замкнутое взаимодействие, долгосрочное планирование в мультиагентных системах и обновление графов сцен). В данном отчете подробно описаны архитектура модели, процесс создания данных, многоэтапные стратегии обучения, инфраструктура и практические применения. Мы надеемся, что RoboBrain 2.0 продвинет исследования в области воплощенного ИИ и станет практическим шагом на пути к созданию универсальных воплощенных агентов. Код, контрольные точки и тестовые наборы доступны по адресу https://superrobobrain.github.io.

English

We introduce RoboBrain 2.0, our latest generation of embodied vision-language foundation models, designed to unify perception, reasoning, and planning for complex embodied tasks in physical environments. It comes in two variants: a lightweight 7B model and a full-scale 32B model, featuring a heterogeneous architecture with a vision encoder and a language model. Despite its compact size, RoboBrain 2.0 achieves strong performance across a wide spectrum of embodied reasoning tasks. On both spatial and temporal benchmarks, the 32B variant achieves leading results, surpassing prior open-source and proprietary models. In particular, it supports key real-world embodied AI capabilities, including spatial understanding (e.g., affordance prediction, spatial referring, trajectory forecasting) and temporal decision-making (e.g., closed-loop interaction, multi-agent long-horizon planning, and scene graph updating). This report details the model architecture, data construction, multi-stage training strategies, infrastructure and practical applications. We hope RoboBrain 2.0 advances embodied AI research and serves as a practical step toward building generalist embodied agents. The code, checkpoint and benchmark are available at https://superrobobrain.github.io.

Технический отчет RoboBrain 2.0

RoboBrain 2.0 Technical Report

Аннотация

Support