Embodied-R1: Verstärktes verkörpertes Denken für allgemeine robotische Manipulation
Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation
August 19, 2025
papers.authors: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao
cs.AI
papers.abstract
Die Generalisierung in der verkörperten KI wird durch die „Sehen-Handeln-Lücke“ behindert, die auf Datenknappheit und Heterogenität der Verkörperung zurückzuführen ist. Um dies zu adressieren, führen wir „Zeigen“ als eine einheitliche, verkörperungsunabhängige Zwischendarstellung ein und definieren vier zentrale Fähigkeiten des verkörperten Zeigens, die das Verständnis von hochrangiger Bild-Sprache mit niedrigrangigen Handlungsprimitiven verbinden. Wir stellen Embodied-R1 vor, ein 3B Vision-Language-Modell (VLM), das speziell für verkörpertes Denken und Zeigen entwickelt wurde. Wir nutzen eine Vielzahl von verkörperten und allgemeinen visuellen Denkdatensätzen als Quellen, um einen groß angelegten Datensatz, Embodied-Points-200K, zu erstellen, der wichtige Fähigkeiten des verkörperten Zeigens unterstützt. Anschließend trainieren wir Embodied-R1 mit einem zweistufigen Reinforced Fine-Tuning (RFT)-Curriculum und einem spezialisierten Multi-Task-Belohnungsdesign. Embodied-R1 erreicht Spitzenleistungen in 11 verkörperten räumlichen und Zeigen-Benchmarks. Entscheidend ist, dass es eine robuste Zero-Shot-Generalisierung demonstriert, indem es eine Erfolgsrate von 56,2 % in SIMPLEREnv und 87,5 % über 8 reale XArm-Aufgaben ohne aufgabenspezifisches Fine-Tuning erreicht, was eine Verbesserung von 62 % gegenüber starken Baselines darstellt. Darüber hinaus zeigt das Modell eine hohe Robustheit gegenüber verschiedenen visuellen Störungen. Unsere Arbeit zeigt, dass eine zeigenzentrierte Darstellung, kombiniert mit einem RFT-Trainingsparadigma, einen effektiven und generalisierbaren Weg bietet, um die Wahrnehmungs-Handlungs-Lücke in der Robotik zu schließen.
English
Generalization in embodied AI is hindered by the "seeing-to-doing gap," which
stems from data scarcity and embodiment heterogeneity. To address this, we
pioneer "pointing" as a unified, embodiment-agnostic intermediate
representation, defining four core embodied pointing abilities that bridge
high-level vision-language comprehension with low-level action primitives. We
introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed
for embodied reasoning and pointing. We use a wide range of embodied and
general visual reasoning datasets as sources to construct a large-scale
dataset, Embodied-Points-200K, which supports key embodied pointing
capabilities. We then train Embodied-R1 using a two-stage Reinforced
Fine-tuning (RFT) curriculum with a specialized multi-task reward design.
Embodied-R1 achieves state-of-the-art performance on 11 embodied spatial and
pointing benchmarks. Critically, it demonstrates robust zero-shot
generalization by achieving a 56.2% success rate in the SIMPLEREnv and 87.5%
across 8 real-world XArm tasks without any task-specific fine-tuning,
representing a 62% improvement over strong baselines. Furthermore, the model
exhibits high robustness against diverse visual disturbances. Our work shows
that a pointing-centric representation, combined with an RFT training paradigm,
offers an effective and generalizable pathway to closing the perception-action
gap in robotics.