Embodied-R1.5: Evolução da Inteligência Física via Modelos de Fundação Corporificados

Resumo

Apresentamos o Embodied-R1.5, um Modelo Fundamental Incorporado (EFM) unificado que integra capacidades abrangentes de raciocínio incorporado, abrangendo cognição incorporada, planejamento de tarefas, correção e apontamento, dentro de uma única arquitetura rumo à inteligência física geral. Aproveitando três pipelines automatizados de construção de dados para expandir significativamente a cobertura de dados de capacidades críticas, construímos um sistema de dados em larga escala com mais de 15 bilhões de tokens e projetamos uma receita de RL multitarefa balanceada para aliviar conflitos de tarefas heterogêneas. Introduzimos ainda um framework em malha fechada Planejador-Embasador-Corretor (PGC) que permite a um único modelo executar e autocorrigir-se autonomamente em tarefas de horizonte longo. Com apenas 8 bilhões de parâmetros, o Embodied-R1.5 alcança estado da arte em 16 dos 24 benchmarks VLM incorporados, superando modelos líderes como Gemini-Robotics-ER-1.5 e GPT-5.4. Beneficiando-se das capacidades incorporadas internalizadas, o Embodied-R1.5 pode ser ajustado em um VLA com apenas uma pequena quantidade de dados, superando modelos VLA líderes como o π₀,₅ em 4 conjuntos populares de benchmarks de manipulação. Realizamos ainda extensos experimentos zero-shot com robôs reais, validando o desempenho em seguimento de instruções, fundamentação de affordance, manipulação de objetos articulados e tarefas complexas de horizonte longo, demonstrando forte generalização para o mundo físico. Disponibilizamos pesos de modelo, conjuntos de dados, código de treinamento e o EmbodiedEvalKit, um framework de avaliação adaptado para tarefas incorporadas, em código aberto, para facilitar pesquisas futuras em EFMs.

English

We introduce Embodied-R1.5, a unified Embodied Foundation Model (EFM) that integrates comprehensive embodied reasoning capabilities, spanning embodied cognition, task planning, correction, and pointing, within a single architecture toward general physical intelligence. Leveraging three automated data construction pipelines to significantly expand the data coverage of critical capabilities, we build a large-scale data system of over 15B tokens, and design a multi-task balanced RL recipe to alleviate heterogeneous task conflicts. We further introduce a Planner-Grounder-Corrector (PGC) closed-loop framework that enables a single model to autonomously execute and self-correct over long-horizon tasks. With only 8B parameters, Embodied-R1.5 achieves SOTA on 16 out of 24 embodied VLM benchmarks, surpassing leading models like Gemini-Robotics-ER-1.5 and GPT-5.4. Benefiting from the internalized embodied capabilities, Embodied-R1.5 can be fine-tuned into a VLA with only a small amount of data, outperforming leading VLA models like π_{0.5} across 4 popular manipulation benchmark suites. We further conduct extensive zero-shot real-robot experiments, validating performance in instruction following, affordance grounding, articulated object manipulation, and long-horizon complex tasks, demonstrating strong generalization to the physical world. We open-source model weights, datasets, training code, and EmbodiedEvalKit, an evaluation framework tailored for embodied tasks, to facilitate future research in EFMs.