Embodied-R1: Ragionamento Embodied Rinforzato per la Manipolazione Robotica Generale

Abstract

La generalizzazione nell'IA incarnata è ostacolata dal "divario tra visione e azione", che deriva dalla scarsità di dati e dall'eterogeneità dell'incarnazione. Per affrontare questo problema, introduciamo il "puntamento" come rappresentazione intermedia unificata e indipendente dall'incarnazione, definendo quattro abilità fondamentali di puntamento incarnato che collegano la comprensione di alto livello tra visione e linguaggio con le primitive d'azione di basso livello. Presentiamo Embodied-R1, un modello visione-linguaggio (VLM) da 3B specificamente progettato per il ragionamento incarnato e il puntamento. Utilizziamo una vasta gamma di dataset di ragionamento visivo generale e incarnato come fonti per costruire un dataset su larga scala, Embodied-Points-200K, che supporta le capacità chiave di puntamento incarnato. Addestriamo quindi Embodied-R1 utilizzando un curriculum di fine-tuning rinforzato (RFT) in due fasi con un design di ricompensa multi-task specializzato. Embodied-R1 raggiunge prestazioni all'avanguardia su 11 benchmark spaziali e di puntamento incarnato. In modo critico, dimostra una robusta generalizzazione zero-shot ottenendo un tasso di successo del 56,2% in SIMPLEREnv e dell'87,5% su 8 task reali con XArm senza alcun fine-tuning specifico per il task, rappresentando un miglioramento del 62% rispetto ai baseline forti. Inoltre, il modello mostra un'elevata robustezza contro diverse perturbazioni visive. Il nostro lavoro dimostra che una rappresentazione centrata sul puntamento, combinata con un paradigma di addestramento RFT, offre un percorso efficace e generalizzabile per colmare il divario percezione-azione nella robotica.

English

Generalization in embodied AI is hindered by the "seeing-to-doing gap," which stems from data scarcity and embodiment heterogeneity. To address this, we pioneer "pointing" as a unified, embodiment-agnostic intermediate representation, defining four core embodied pointing abilities that bridge high-level vision-language comprehension with low-level action primitives. We introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed for embodied reasoning and pointing. We use a wide range of embodied and general visual reasoning datasets as sources to construct a large-scale dataset, Embodied-Points-200K, which supports key embodied pointing capabilities. We then train Embodied-R1 using a two-stage Reinforced Fine-tuning (RFT) curriculum with a specialized multi-task reward design. Embodied-R1 achieves state-of-the-art performance on 11 embodied spatial and pointing benchmarks. Critically, it demonstrates robust zero-shot generalization by achieving a 56.2% success rate in the SIMPLEREnv and 87.5% across 8 real-world XArm tasks without any task-specific fine-tuning, representing a 62% improvement over strong baselines. Furthermore, the model exhibits high robustness against diverse visual disturbances. Our work shows that a pointing-centric representation, combined with an RFT training paradigm, offers an effective and generalizable pathway to closing the perception-action gap in robotics.

Embodied-R1: Ragionamento Embodied Rinforzato per la Manipolazione Robotica Generale

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

Abstract

Support