Embodied-R1 : Raisonnement Embodi Renforcé pour la Manipulation Robotique Générale
Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation
August 19, 2025
papers.authors: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao
cs.AI
papers.abstract
La généralisation en IA incarnée est entravée par le "fossé perception-action", qui découle de la rareté des données et de l'hétérogénéité des incarnations. Pour y remédier, nous introduisons le "pointage" comme représentation intermédiaire unifiée et indépendante de l'incarnation, définissant quatre capacités fondamentales de pointage incarné qui relient la compréhension visuo-linguistique de haut niveau avec les primitives d'action de bas niveau. Nous présentons Embodied-R1, un modèle vision-langage (VLM) de 3B spécialement conçu pour le raisonnement et le pointage incarnés. Nous utilisons une variété de jeux de données de raisonnement visuel général et incarné pour construire un ensemble de données à grande échelle, Embodied-Points-200K, qui soutient les capacités clés de pointage incarné. Nous entraînons ensuite Embodied-R1 en utilisant un curriculum en deux étapes de Fine-tuning Renforcé (RFT) avec une conception de récompense multi-tâche spécialisée. Embodied-R1 atteint des performances de pointe sur 11 benchmarks de spatialité et de pointage incarnés. De manière critique, il démontre une généralisation robuste en zero-shot en atteignant un taux de réussite de 56,2% dans SIMPLEREnv et de 87,5% sur 8 tâches réelles avec le bras robotique XArm sans aucun fine-tuning spécifique à la tâche, représentant une amélioration de 62% par rapport aux bases de référence solides. De plus, le modèle montre une grande robustesse face à diverses perturbations visuelles. Notre travail montre qu'une représentation centrée sur le pointage, combinée à un paradigme d'entraînement RFT, offre une voie efficace et généralisable pour combler le fossé perception-action en robotique.
English
Generalization in embodied AI is hindered by the "seeing-to-doing gap," which
stems from data scarcity and embodiment heterogeneity. To address this, we
pioneer "pointing" as a unified, embodiment-agnostic intermediate
representation, defining four core embodied pointing abilities that bridge
high-level vision-language comprehension with low-level action primitives. We
introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed
for embodied reasoning and pointing. We use a wide range of embodied and
general visual reasoning datasets as sources to construct a large-scale
dataset, Embodied-Points-200K, which supports key embodied pointing
capabilities. We then train Embodied-R1 using a two-stage Reinforced
Fine-tuning (RFT) curriculum with a specialized multi-task reward design.
Embodied-R1 achieves state-of-the-art performance on 11 embodied spatial and
pointing benchmarks. Critically, it demonstrates robust zero-shot
generalization by achieving a 56.2% success rate in the SIMPLEREnv and 87.5%
across 8 real-world XArm tasks without any task-specific fine-tuning,
representing a 62% improvement over strong baselines. Furthermore, the model
exhibits high robustness against diverse visual disturbances. Our work shows
that a pointing-centric representation, combined with an RFT training paradigm,
offers an effective and generalizable pathway to closing the perception-action
gap in robotics.