Embodied-R1.5 : Évolution de l'intelligence physique via des modèles de fondation incarnés

Résumé

Nous présentons Embodied-R1.5, un modèle fondamental incarné (Embodied Foundation Model, EFM) unifié qui intègre des capacités complètes de raisonnement incarné, couvrant la cognition incarnée, la planification de tâches, la correction et le pointage, au sein d'une architecture unique, en vue d'une intelligence physique générale. En exploitant trois pipelines automatisés de construction de données pour étendre considérablement la couverture des données relatives aux capacités critiques, nous constituons un système de données à grande échelle de plus de 15 milliards de tokens, et concevons une méthode d'apprentissage par renforcement (RL) multi-tâches équilibrée pour atténuer les conflits entre tâches hétérogènes. Nous introduisons en outre un cadre en boucle fermée Planificateur-Groundeur-Correcteur (PGC) qui permet à un modèle unique d'exécuter de manière autonome et de s'auto-corriger sur des tâches à long horizon. Avec seulement 8 milliards de paramètres, Embodied-R1.5 atteint un niveau de performance de pointe (SOTA) sur 16 des 24 benchmarks VLM incarnés, surpassant des modèles de premier plan tels que Gemini-Robotics-ER-1.5 et GPT-5.4. Grâce à ses capacités incarnées internalisées, Embodied-R1.5 peut être affiné en un VLA avec seulement une petite quantité de données, surpassant des modèles VLA leaders comme π_{0.5} sur 4 suites de benchmarks de manipulation populaires. Nous menons en outre des expériences approfondies en zéro-shot sur des robots réels, validant les performances en matière de suivi d'instructions, d'ancrage d'affordances, de manipulation d'objets articulés et de tâches complexes à long horizon, démontrant ainsi une forte généralisation au monde physique. Nous publions en open source les poids du modèle, les ensembles de données, le code d'entraînement et EmbodiedEvalKit, un cadre d'évaluation adapté aux tâches incarnées, afin de faciliter la recherche future sur les EFM.

English

We introduce Embodied-R1.5, a unified Embodied Foundation Model (EFM) that integrates comprehensive embodied reasoning capabilities, spanning embodied cognition, task planning, correction, and pointing, within a single architecture toward general physical intelligence. Leveraging three automated data construction pipelines to significantly expand the data coverage of critical capabilities, we build a large-scale data system of over 15B tokens, and design a multi-task balanced RL recipe to alleviate heterogeneous task conflicts. We further introduce a Planner-Grounder-Corrector (PGC) closed-loop framework that enables a single model to autonomously execute and self-correct over long-horizon tasks. With only 8B parameters, Embodied-R1.5 achieves SOTA on 16 out of 24 embodied VLM benchmarks, surpassing leading models like Gemini-Robotics-ER-1.5 and GPT-5.4. Benefiting from the internalized embodied capabilities, Embodied-R1.5 can be fine-tuned into a VLA with only a small amount of data, outperforming leading VLA models like π_{0.5} across 4 popular manipulation benchmark suites. We further conduct extensive zero-shot real-robot experiments, validating performance in instruction following, affordance grounding, articulated object manipulation, and long-horizon complex tasks, demonstrating strong generalization to the physical world. We open-source model weights, datasets, training code, and EmbodiedEvalKit, an evaluation framework tailored for embodied tasks, to facilitate future research in EFMs.