Embodied-R1.5: Эволюция физического интеллекта посредством воплощенных фундаментальных моделей

Аннотация

Мы представляем Embodied-R1.5 — объединенную фундаментальную модель для воплощенного ИИ (EFM), интегрирующую всесторонние способности к рассуждению в воплощенном контексте, включая воплощенное познание, планирование задач, коррекцию и указание, в единой архитектуре, нацеленной на общий физический интеллект. Используя три автоматизированных конвейера построения данных для значительного расширения охвата данных по критически важным способностям, мы создали крупномасштабную систему данных объемом более 15 млрд токенов и разработали рецепт многозадачного сбалансированного обучения с подкреплением (RL) для разрешения конфликтов между разнородными задачами. Мы также представляем замкнутую структуру Planner-Grounder-Corrector (PGC), позволяющую единой модели автономно выполнять и самокорректировать долгосрочные задачи. Имея всего 8 млрд параметров, Embodied-R1.5 достигает современного уровня (SOTA) на 16 из 24 тестов VLM для воплощенного ИИ, превосходя ведущие модели, такие как Gemini-Robotics-ER-1.5 и GPT-5.4. Благодаря интернализованным способностям воплощенного ИИ, Embodied-R1.5 может быть дообучена до модели типа VLA на лишь небольшом объеме данных, превосходя ведущие VLA-модели, такие как π_{0.5}, на 4 популярных наборах тестов для манипуляций. Мы также провели обширные эксперименты с реальным роботом в режиме zero-shot, подтвердив производительность в следовании инструкциям, заземлении аффордансов, манипуляции сочлененными объектами и долгосрочных сложных задачах, демонстрируя сильную обобщаемость на физический мир. Мы открываем исходный код весов модели, наборов данных, кода обучения и EmbodiedEvalKit — оценочного фреймворка, адаптированного для задач воплощенного ИИ, чтобы способствовать будущим исследованиям в области EFM.

English

We introduce Embodied-R1.5, a unified Embodied Foundation Model (EFM) that integrates comprehensive embodied reasoning capabilities, spanning embodied cognition, task planning, correction, and pointing, within a single architecture toward general physical intelligence. Leveraging three automated data construction pipelines to significantly expand the data coverage of critical capabilities, we build a large-scale data system of over 15B tokens, and design a multi-task balanced RL recipe to alleviate heterogeneous task conflicts. We further introduce a Planner-Grounder-Corrector (PGC) closed-loop framework that enables a single model to autonomously execute and self-correct over long-horizon tasks. With only 8B parameters, Embodied-R1.5 achieves SOTA on 16 out of 24 embodied VLM benchmarks, surpassing leading models like Gemini-Robotics-ER-1.5 and GPT-5.4. Benefiting from the internalized embodied capabilities, Embodied-R1.5 can be fine-tuned into a VLA with only a small amount of data, outperforming leading VLA models like π_{0.5} across 4 popular manipulation benchmark suites. We further conduct extensive zero-shot real-robot experiments, validating performance in instruction following, affordance grounding, articulated object manipulation, and long-horizon complex tasks, demonstrating strong generalization to the physical world. We open-source model weights, datasets, training code, and EmbodiedEvalKit, an evaluation framework tailored for embodied tasks, to facilitate future research in EFMs.