Embodied-R1: Ragionamento Embodied Rinforzato per la Manipolazione Robotica Generale
Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation
August 19, 2025
Autori: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao
cs.AI
Abstract
La generalizzazione nell'IA incarnata è ostacolata dal "divario tra visione e azione", che deriva dalla scarsità di dati e dall'eterogeneità dell'incarnazione. Per affrontare questo problema, introduciamo il "puntamento" come rappresentazione intermedia unificata e indipendente dall'incarnazione, definendo quattro abilità fondamentali di puntamento incarnato che collegano la comprensione di alto livello tra visione e linguaggio con le primitive d'azione di basso livello. Presentiamo Embodied-R1, un modello visione-linguaggio (VLM) da 3B specificamente progettato per il ragionamento incarnato e il puntamento. Utilizziamo una vasta gamma di dataset di ragionamento visivo generale e incarnato come fonti per costruire un dataset su larga scala, Embodied-Points-200K, che supporta le capacità chiave di puntamento incarnato. Addestriamo quindi Embodied-R1 utilizzando un curriculum di fine-tuning rinforzato (RFT) in due fasi con un design di ricompensa multi-task specializzato. Embodied-R1 raggiunge prestazioni all'avanguardia su 11 benchmark spaziali e di puntamento incarnato. In modo critico, dimostra una robusta generalizzazione zero-shot ottenendo un tasso di successo del 56,2% in SIMPLEREnv e dell'87,5% su 8 task reali con XArm senza alcun fine-tuning specifico per il task, rappresentando un miglioramento del 62% rispetto ai baseline forti. Inoltre, il modello mostra un'elevata robustezza contro diverse perturbazioni visive. Il nostro lavoro dimostra che una rappresentazione centrata sul puntamento, combinata con un paradigma di addestramento RFT, offre un percorso efficace e generalizzabile per colmare il divario percezione-azione nella robotica.
English
Generalization in embodied AI is hindered by the "seeing-to-doing gap," which
stems from data scarcity and embodiment heterogeneity. To address this, we
pioneer "pointing" as a unified, embodiment-agnostic intermediate
representation, defining four core embodied pointing abilities that bridge
high-level vision-language comprehension with low-level action primitives. We
introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed
for embodied reasoning and pointing. We use a wide range of embodied and
general visual reasoning datasets as sources to construct a large-scale
dataset, Embodied-Points-200K, which supports key embodied pointing
capabilities. We then train Embodied-R1 using a two-stage Reinforced
Fine-tuning (RFT) curriculum with a specialized multi-task reward design.
Embodied-R1 achieves state-of-the-art performance on 11 embodied spatial and
pointing benchmarks. Critically, it demonstrates robust zero-shot
generalization by achieving a 56.2% success rate in the SIMPLEREnv and 87.5%
across 8 real-world XArm tasks without any task-specific fine-tuning,
representing a 62% improvement over strong baselines. Furthermore, the model
exhibits high robustness against diverse visual disturbances. Our work shows
that a pointing-centric representation, combined with an RFT training paradigm,
offers an effective and generalizable pathway to closing the perception-action
gap in robotics.