Embodied-R1.5: Evolução da Inteligência Física via Modelos de Fundação Corporificados
Embodied-R1.5: Evolving Physical Intelligence via Embodied Foundation Models
June 9, 2026
Autores: Yifu Yuan, Yaoting Huang, Xianze Yao, Yutong Li, Shuoheng Zhang, Linqi Han, Pengyi Li, Jiangeng Sun, Wenting Jia, Zhao Zhang, Yuhao Liu, Ruihao Liao, Yucheng Hu, Qiyu Wu, Yuxiao Li, Zibin Dong, Fei Ni, Yan Zheng, Shuyang Gu, Yi Ma, Hongyao Tang, Han Hu, Jianye Hao
cs.AI
Resumo
Apresentamos o Embodied-R1.5, um Modelo Fundamental Incorporado (EFM) unificado que integra capacidades abrangentes de raciocínio incorporado, abrangendo cognição incorporada, planejamento de tarefas, correção e apontamento, dentro de uma única arquitetura rumo à inteligência física geral. Aproveitando três pipelines automatizados de construção de dados para expandir significativamente a cobertura de dados de capacidades críticas, construímos um sistema de dados em larga escala com mais de 15 bilhões de tokens e projetamos uma receita de RL multitarefa balanceada para aliviar conflitos de tarefas heterogêneas. Introduzimos ainda um framework em malha fechada Planejador-Embasador-Corretor (PGC) que permite a um único modelo executar e autocorrigir-se autonomamente em tarefas de horizonte longo. Com apenas 8 bilhões de parâmetros, o Embodied-R1.5 alcança estado da arte em 16 dos 24 benchmarks VLM incorporados, superando modelos líderes como Gemini-Robotics-ER-1.5 e GPT-5.4. Beneficiando-se das capacidades incorporadas internalizadas, o Embodied-R1.5 pode ser ajustado em um VLA com apenas uma pequena quantidade de dados, superando modelos VLA líderes como o π₀,₅ em 4 conjuntos populares de benchmarks de manipulação. Realizamos ainda extensos experimentos zero-shot com robôs reais, validando o desempenho em seguimento de instruções, fundamentação de affordance, manipulação de objetos articulados e tarefas complexas de horizonte longo, demonstrando forte generalização para o mundo físico. Disponibilizamos pesos de modelo, conjuntos de dados, código de treinamento e o EmbodiedEvalKit, um framework de avaliação adaptado para tarefas incorporadas, em código aberto, para facilitar pesquisas futuras em EFMs.
English
We introduce Embodied-R1.5, a unified Embodied Foundation Model (EFM) that integrates comprehensive embodied reasoning capabilities, spanning embodied cognition, task planning, correction, and pointing, within a single architecture toward general physical intelligence. Leveraging three automated data construction pipelines to significantly expand the data coverage of critical capabilities, we build a large-scale data system of over 15B tokens, and design a multi-task balanced RL recipe to alleviate heterogeneous task conflicts. We further introduce a Planner-Grounder-Corrector (PGC) closed-loop framework that enables a single model to autonomously execute and self-correct over long-horizon tasks. With only 8B parameters, Embodied-R1.5 achieves SOTA on 16 out of 24 embodied VLM benchmarks, surpassing leading models like Gemini-Robotics-ER-1.5 and GPT-5.4. Benefiting from the internalized embodied capabilities, Embodied-R1.5 can be fine-tuned into a VLA with only a small amount of data, outperforming leading VLA models like π_{0.5} across 4 popular manipulation benchmark suites. We further conduct extensive zero-shot real-robot experiments, validating performance in instruction following, affordance grounding, articulated object manipulation, and long-horizon complex tasks, demonstrating strong generalization to the physical world. We open-source model weights, datasets, training code, and EmbodiedEvalKit, an evaluation framework tailored for embodied tasks, to facilitate future research in EFMs.