Embodied-R1 : Raisonnement Embodi Renforcé pour la Manipulation Robotique Générale

papers.abstract

La généralisation en IA incarnée est entravée par le "fossé perception-action", qui découle de la rareté des données et de l'hétérogénéité des incarnations. Pour y remédier, nous introduisons le "pointage" comme représentation intermédiaire unifiée et indépendante de l'incarnation, définissant quatre capacités fondamentales de pointage incarné qui relient la compréhension visuo-linguistique de haut niveau avec les primitives d'action de bas niveau. Nous présentons Embodied-R1, un modèle vision-langage (VLM) de 3B spécialement conçu pour le raisonnement et le pointage incarnés. Nous utilisons une variété de jeux de données de raisonnement visuel général et incarné pour construire un ensemble de données à grande échelle, Embodied-Points-200K, qui soutient les capacités clés de pointage incarné. Nous entraînons ensuite Embodied-R1 en utilisant un curriculum en deux étapes de Fine-tuning Renforcé (RFT) avec une conception de récompense multi-tâche spécialisée. Embodied-R1 atteint des performances de pointe sur 11 benchmarks de spatialité et de pointage incarnés. De manière critique, il démontre une généralisation robuste en zero-shot en atteignant un taux de réussite de 56,2% dans SIMPLEREnv et de 87,5% sur 8 tâches réelles avec le bras robotique XArm sans aucun fine-tuning spécifique à la tâche, représentant une amélioration de 62% par rapport aux bases de référence solides. De plus, le modèle montre une grande robustesse face à diverses perturbations visuelles. Notre travail montre qu'une représentation centrée sur le pointage, combinée à un paradigme d'entraînement RFT, offre une voie efficace et généralisable pour combler le fossé perception-action en robotique.

English

Generalization in embodied AI is hindered by the "seeing-to-doing gap," which stems from data scarcity and embodiment heterogeneity. To address this, we pioneer "pointing" as a unified, embodiment-agnostic intermediate representation, defining four core embodied pointing abilities that bridge high-level vision-language comprehension with low-level action primitives. We introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed for embodied reasoning and pointing. We use a wide range of embodied and general visual reasoning datasets as sources to construct a large-scale dataset, Embodied-Points-200K, which supports key embodied pointing capabilities. We then train Embodied-R1 using a two-stage Reinforced Fine-tuning (RFT) curriculum with a specialized multi-task reward design. Embodied-R1 achieves state-of-the-art performance on 11 embodied spatial and pointing benchmarks. Critically, it demonstrates robust zero-shot generalization by achieving a 56.2% success rate in the SIMPLEREnv and 87.5% across 8 real-world XArm tasks without any task-specific fine-tuning, representing a 62% improvement over strong baselines. Furthermore, the model exhibits high robustness against diverse visual disturbances. Our work shows that a pointing-centric representation, combined with an RFT training paradigm, offers an effective and generalizable pathway to closing the perception-action gap in robotics.

Embodied-R1 : Raisonnement Embodi Renforcé pour la Manipulation Robotique Générale

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

papers.abstract

Support