Embodied-R1: Raciocínio Embarcado Reforçado para Manipulação Robótica Geral

Resumo

A generalização em IA corporificada é dificultada pela "lacuna entre ver e fazer", que decorre da escassez de dados e da heterogeneidade de corporificação. Para abordar isso, pioneiramos o "apontar" como uma representação intermediária unificada e independente de corporificação, definindo quatro habilidades centrais de apontar corporificado que conectam a compreensão de alto nível em visão e linguagem com primitivas de ação de baixo nível. Introduzimos o Embodied-R1, um Modelo de Visão e Linguagem (VLM) de 3B projetado especificamente para raciocínio e apontar corporificado. Utilizamos uma ampla gama de conjuntos de dados de raciocínio visual geral e corporificado como fontes para construir um conjunto de dados em larga escala, o Embodied-Points-200K, que suporta capacidades essenciais de apontar corporificado. Em seguida, treinamos o Embodied-R1 usando um currículo de Ajuste Fino Reforçado (RFT) em duas etapas com um design de recompensa multitarefa especializado. O Embodied-R1 alcança desempenho de ponta em 11 benchmarks de apontar e espacialidade corporificada. Criticamente, ele demonstra uma generalização robusta zero-shot ao alcançar uma taxa de sucesso de 56,2% no SIMPLEREnv e 87,5% em 8 tarefas reais com o XArm, sem qualquer ajuste fino específico para a tarefa, representando uma melhoria de 62% em relação a baselines fortes. Além disso, o modelo exibe alta robustez contra diversas perturbações visuais. Nosso trabalho mostra que uma representação centrada no apontar, combinada com um paradigma de treinamento RFT, oferece um caminho eficaz e generalizável para fechar a lacuna entre percepção e ação na robótica.

English

Generalization in embodied AI is hindered by the "seeing-to-doing gap," which stems from data scarcity and embodiment heterogeneity. To address this, we pioneer "pointing" as a unified, embodiment-agnostic intermediate representation, defining four core embodied pointing abilities that bridge high-level vision-language comprehension with low-level action primitives. We introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed for embodied reasoning and pointing. We use a wide range of embodied and general visual reasoning datasets as sources to construct a large-scale dataset, Embodied-Points-200K, which supports key embodied pointing capabilities. We then train Embodied-R1 using a two-stage Reinforced Fine-tuning (RFT) curriculum with a specialized multi-task reward design. Embodied-R1 achieves state-of-the-art performance on 11 embodied spatial and pointing benchmarks. Critically, it demonstrates robust zero-shot generalization by achieving a 56.2% success rate in the SIMPLEREnv and 87.5% across 8 real-world XArm tasks without any task-specific fine-tuning, representing a 62% improvement over strong baselines. Furthermore, the model exhibits high robustness against diverse visual disturbances. Our work shows that a pointing-centric representation, combined with an RFT training paradigm, offers an effective and generalizable pathway to closing the perception-action gap in robotics.

Embodied-R1: Raciocínio Embarcado Reforçado para Manipulação Robótica Geral

Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

Resumo

Support