Embodied-R1.5: Evoluerende Fysieke Intelligentie via Embodied Fundatiemodellen

Samenvatting

We introduceren Embodied-R1.5, een uniform Embodied Foundation Model (EFM) dat uitgebreide belichaamde redeneercapaciteiten integreert—variërend van belichaamde cognitie, taakplanning, correctie en aanwijzen—binnen één enkele architectuur richting algemene fysieke intelligentie. Gebruikmakend van drie geautomatiseerde dataconstructiepijplijnen om de datadekking van kritieke capaciteiten aanzienlijk uit te breiden, bouwen we een grootschalig datasysteem van meer dan 15B tokens, en ontwerpen we een multi-task gebalanceerd RL-recept om heterogene taakconflicten te verminderen. We introduceren verder een Planner-Grounder-Corrector (PGC) closed-loop framework dat een enkel model in staat stelt autonoom taken uit te voeren en zichzelf te corrigeren over langetermijntaken. Met slechts 8B parameters behaalt Embodied-R1.5 SOTA op 16 van de 24 belichaamde VLM-benchmarks, waarmee het toonaangevende modellen zoals Gemini-Robotics-ER-1.5 en GPT-5.4 overtreft. Dankzij de geïnternaliseerde belichaamde capaciteiten kan Embodied-R1.5 met slechts een kleine hoeveelheid data worden gefinetuned tot een VLA, waarmee het toonaangevende VLA-modellen zoals π_{0.5} overtreft op 4 populaire manipulatiebenchmarksuites. We voeren verder uitgebreide zero-shot echte robotexperimenten uit, waarbij we de prestaties valideren op het gebied van instructievolging, affordance-gronding, manipulatie van gelede objecten en complexe langetermijntaken, wat een sterke generalisatie naar de fysieke wereld aantoont. We open-sourcen modelgewichten, datasets, trainingscode en EmbodiedEvalKit, een evaluatieframework dat is afgestemd op belichaamde taken, om toekomstig onderzoek naar EFM's te vergemakkelijken.

English

We introduce Embodied-R1.5, a unified Embodied Foundation Model (EFM) that integrates comprehensive embodied reasoning capabilities, spanning embodied cognition, task planning, correction, and pointing, within a single architecture toward general physical intelligence. Leveraging three automated data construction pipelines to significantly expand the data coverage of critical capabilities, we build a large-scale data system of over 15B tokens, and design a multi-task balanced RL recipe to alleviate heterogeneous task conflicts. We further introduce a Planner-Grounder-Corrector (PGC) closed-loop framework that enables a single model to autonomously execute and self-correct over long-horizon tasks. With only 8B parameters, Embodied-R1.5 achieves SOTA on 16 out of 24 embodied VLM benchmarks, surpassing leading models like Gemini-Robotics-ER-1.5 and GPT-5.4. Benefiting from the internalized embodied capabilities, Embodied-R1.5 can be fine-tuned into a VLA with only a small amount of data, outperforming leading VLA models like π_{0.5} across 4 popular manipulation benchmark suites. We further conduct extensive zero-shot real-robot experiments, validating performance in instruction following, affordance grounding, articulated object manipulation, and long-horizon complex tasks, demonstrating strong generalization to the physical world. We open-source model weights, datasets, training code, and EmbodiedEvalKit, an evaluation framework tailored for embodied tasks, to facilitate future research in EFMs.