Embodied-R1: Razonamiento Embebido Reforzado para la Manipulación Robótica General
Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation
August 19, 2025
Autores: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao
cs.AI
Resumen
La generalización en la IA encarnada se ve obstaculizada por la "brecha entre la percepción y la acción", que surge de la escasez de datos y la heterogeneidad de la encarnación. Para abordar esto, introducimos el "señalamiento" como una representación intermedia unificada y agnóstica a la encarnación, definiendo cuatro habilidades fundamentales de señalamiento encarnado que conectan la comprensión de alto nivel en visión y lenguaje con los primitivos de acción de bajo nivel. Presentamos Embodied-R1, un Modelo de Visión-Lenguaje (VLM) de 3B específicamente diseñado para el razonamiento encarnado y el señalamiento. Utilizamos una amplia gama de conjuntos de datos de razonamiento visual general y encarnado como fuentes para construir un conjunto de datos a gran escala, Embodied-Points-200K, que respalda capacidades clave de señalamiento encarnado. Luego entrenamos Embodied-R1 utilizando un currículo de Ajuste Fino Reforzado (RFT) en dos etapas con un diseño de recompensa multi-tarea especializado. Embodied-R1 logra un rendimiento de vanguardia en 11 benchmarks de señalamiento y espacialidad encarnada. De manera crítica, demuestra una generalización robusta en zero-shot al alcanzar una tasa de éxito del 56.2% en SIMPLEREnv y del 87.5% en 8 tareas reales con XArm, sin ningún ajuste fino específico para la tarea, lo que representa una mejora del 62% sobre líneas base sólidas. Además, el modelo exhibe una alta robustez frente a diversas perturbaciones visuales. Nuestro trabajo muestra que una representación centrada en el señalamiento, combinada con un paradigma de entrenamiento RFT, ofrece una vía efectiva y generalizable para cerrar la brecha percepción-acción en robótica.
English
Generalization in embodied AI is hindered by the "seeing-to-doing gap," which
stems from data scarcity and embodiment heterogeneity. To address this, we
pioneer "pointing" as a unified, embodiment-agnostic intermediate
representation, defining four core embodied pointing abilities that bridge
high-level vision-language comprehension with low-level action primitives. We
introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed
for embodied reasoning and pointing. We use a wide range of embodied and
general visual reasoning datasets as sources to construct a large-scale
dataset, Embodied-Points-200K, which supports key embodied pointing
capabilities. We then train Embodied-R1 using a two-stage Reinforced
Fine-tuning (RFT) curriculum with a specialized multi-task reward design.
Embodied-R1 achieves state-of-the-art performance on 11 embodied spatial and
pointing benchmarks. Critically, it demonstrates robust zero-shot
generalization by achieving a 56.2% success rate in the SIMPLEREnv and 87.5%
across 8 real-world XArm tasks without any task-specific fine-tuning,
representing a 62% improvement over strong baselines. Furthermore, the model
exhibits high robustness against diverse visual disturbances. Our work shows
that a pointing-centric representation, combined with an RFT training paradigm,
offers an effective and generalizable pathway to closing the perception-action
gap in robotics.