Embodied-R1.5: Evolution der physikalischen Intelligenz durch verkörperte Grundlagenmodelle

Zusammenfassung

Wir stellen Embodied-R1.5 vor, ein einheitliches Embodied Foundation Model (EFM), das umfassende verkörperte Reasoning-Fähigkeiten – darunter verkörperte Kognition, Aufgabenplanung, Korrektur und Zeigen – innerhalb einer einzigen Architektur in Richtung allgemeiner physischer Intelligenz integriert. Durch die Nutzung von drei automatisierten Datenkonstruktionspipelines, um die Datenabdeckung kritischer Fähigkeiten deutlich zu erweitern, bauen wir ein groß angelegtes Datensystem mit über 15 Mrd. Tokens auf und entwerfen ein mehrfachaufgaben-ausbalanciertes RL-Rezept, um heterogene Aufgabenkonflikte abzumildern. Darüber hinaus führen wir ein Planner-Grounder-Corrector (PGC) Closed-Loop-Framework ein, das es einem einzelnen Modell ermöglicht, langfristige Aufgaben autonom auszuführen und selbstständig zu korrigieren. Mit nur 8 Mrd. Parametern erreicht Embodied-R1.5 SOTA bei 16 von 24 verkörperten VLM-Benchmarks und übertrifft führende Modelle wie Gemini-Robotics-ER-1.5 und GPT-5.4. Dank der internalisierten verkörperten Fähigkeiten kann Embodied-R1.5 mit nur geringen Datenmengen zu einem VLA feinabgestimmt werden und übertrifft führende VLA-Modelle wie π_{0.5} bei vier gängigen Manipulations-Benchmark-Suiten. Wir führen zudem umfangreiche Zero-Shot-Experimente mit echten Robotern durch und validieren die Leistung bei der Befolgung von Anweisungen, der Verankerung von Affordanzen, der Manipulation gelenkiger Objekte sowie komplexen langfristigen Aufgaben – und demonstrieren so eine starke Generalisierung auf die physische Welt. Wir veröffentlichen Modellgewichte, Datensätze, Trainingscode sowie EmbodiedEvalKit, ein auf verkörperte Aufgaben zugeschnittenes Evaluierungs-Framework, um die zukünftige Forschung an EFMs zu fördern.

English

We introduce Embodied-R1.5, a unified Embodied Foundation Model (EFM) that integrates comprehensive embodied reasoning capabilities, spanning embodied cognition, task planning, correction, and pointing, within a single architecture toward general physical intelligence. Leveraging three automated data construction pipelines to significantly expand the data coverage of critical capabilities, we build a large-scale data system of over 15B tokens, and design a multi-task balanced RL recipe to alleviate heterogeneous task conflicts. We further introduce a Planner-Grounder-Corrector (PGC) closed-loop framework that enables a single model to autonomously execute and self-correct over long-horizon tasks. With only 8B parameters, Embodied-R1.5 achieves SOTA on 16 out of 24 embodied VLM benchmarks, surpassing leading models like Gemini-Robotics-ER-1.5 and GPT-5.4. Benefiting from the internalized embodied capabilities, Embodied-R1.5 can be fine-tuned into a VLA with only a small amount of data, outperforming leading VLA models like π_{0.5} across 4 popular manipulation benchmark suites. We further conduct extensive zero-shot real-robot experiments, validating performance in instruction following, affordance grounding, articulated object manipulation, and long-horizon complex tasks, demonstrating strong generalization to the physical world. We open-source model weights, datasets, training code, and EmbodiedEvalKit, an evaluation framework tailored for embodied tasks, to facilitate future research in EFMs.