Embodied-R1: Raciocínio Embarcado Reforçado para Manipulação Robótica Geral
Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation
August 19, 2025
Autores: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao
cs.AI
Resumo
A generalização em IA corporificada é dificultada pela "lacuna entre ver e fazer", que decorre da escassez de dados e da heterogeneidade de corporificação. Para abordar isso, pioneiramos o "apontar" como uma representação intermediária unificada e independente de corporificação, definindo quatro habilidades centrais de apontar corporificado que conectam a compreensão de alto nível em visão e linguagem com primitivas de ação de baixo nível. Introduzimos o Embodied-R1, um Modelo de Visão e Linguagem (VLM) de 3B projetado especificamente para raciocínio e apontar corporificado. Utilizamos uma ampla gama de conjuntos de dados de raciocínio visual geral e corporificado como fontes para construir um conjunto de dados em larga escala, o Embodied-Points-200K, que suporta capacidades essenciais de apontar corporificado. Em seguida, treinamos o Embodied-R1 usando um currículo de Ajuste Fino Reforçado (RFT) em duas etapas com um design de recompensa multitarefa especializado. O Embodied-R1 alcança desempenho de ponta em 11 benchmarks de apontar e espacialidade corporificada. Criticamente, ele demonstra uma generalização robusta zero-shot ao alcançar uma taxa de sucesso de 56,2% no SIMPLEREnv e 87,5% em 8 tarefas reais com o XArm, sem qualquer ajuste fino específico para a tarefa, representando uma melhoria de 62% em relação a baselines fortes. Além disso, o modelo exibe alta robustez contra diversas perturbações visuais. Nosso trabalho mostra que uma representação centrada no apontar, combinada com um paradigma de treinamento RFT, oferece um caminho eficaz e generalizável para fechar a lacuna entre percepção e ação na robótica.
English
Generalization in embodied AI is hindered by the "seeing-to-doing gap," which
stems from data scarcity and embodiment heterogeneity. To address this, we
pioneer "pointing" as a unified, embodiment-agnostic intermediate
representation, defining four core embodied pointing abilities that bridge
high-level vision-language comprehension with low-level action primitives. We
introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed
for embodied reasoning and pointing. We use a wide range of embodied and
general visual reasoning datasets as sources to construct a large-scale
dataset, Embodied-Points-200K, which supports key embodied pointing
capabilities. We then train Embodied-R1 using a two-stage Reinforced
Fine-tuning (RFT) curriculum with a specialized multi-task reward design.
Embodied-R1 achieves state-of-the-art performance on 11 embodied spatial and
pointing benchmarks. Critically, it demonstrates robust zero-shot
generalization by achieving a 56.2% success rate in the SIMPLEREnv and 87.5%
across 8 real-world XArm tasks without any task-specific fine-tuning,
representing a 62% improvement over strong baselines. Furthermore, the model
exhibits high robustness against diverse visual disturbances. Our work shows
that a pointing-centric representation, combined with an RFT training paradigm,
offers an effective and generalizable pathway to closing the perception-action
gap in robotics.