Embodied-R1.5: Evolucionando la Inteligencia Física a través de Modelos Fundacionales Encarnados

Resumen

Presentamos Embodied-R1.5, un Modelo Fundamental Embodied (EFM) unificado que integra capacidades integrales de razonamiento corpóreo —que abarcan cognición corpórea, planificación de tareas, corrección y señalización— dentro de una arquitectura única orientada a la inteligencia física general. Aprovechando tres canalizaciones automatizadas de construcción de datos para expandir significativamente la cobertura de datos de capacidades críticas, construimos un sistema de datos a gran escala de más de 15 mil millones de tokens y diseñamos una receta de aprendizaje por refuerzo (RL) multitarea balanceada para aliviar los conflictos de tareas heterogéneas. Además, introducimos un marco de bucle cerrado Planificador-Anclador-Corrector (PGC) que permite a un único modelo ejecutar de forma autónoma y autocorregirse en tareas de largo horizonte. Con solo 8 mil millones de parámetros, Embodied-R1.5 alcanza el estado del arte en 16 de 24 benchmarks de VLM corpóreos, superando a modelos líderes como Gemini-Robotics-ER-1.5 y GPT-5.4. Gracias a las capacidades corpóreas internalizadas, Embodied-R1.5 puede ajustarse finamente como un VLA con solo una pequeña cantidad de datos, superando a modelos VLA líderes como π_{0.5} en 4 conjuntos populares de benchmarks de manipulación. Además, realizamos extensos experimentos cero disparo en robots reales, validando el rendimiento en el seguimiento de instrucciones, el anclaje de affordances, la manipulación de objetos articulados y tareas complejas de largo horizonte, demostrando una fuerte generalización al mundo físico. Publicamos los pesos del modelo, los conjuntos de datos, el código de entrenamiento y EmbodiedEvalKit, un marco de evaluación adaptado para tareas corpóreas, con el fin de facilitar futuras investigaciones en EFMs.

English

We introduce Embodied-R1.5, a unified Embodied Foundation Model (EFM) that integrates comprehensive embodied reasoning capabilities, spanning embodied cognition, task planning, correction, and pointing, within a single architecture toward general physical intelligence. Leveraging three automated data construction pipelines to significantly expand the data coverage of critical capabilities, we build a large-scale data system of over 15B tokens, and design a multi-task balanced RL recipe to alleviate heterogeneous task conflicts. We further introduce a Planner-Grounder-Corrector (PGC) closed-loop framework that enables a single model to autonomously execute and self-correct over long-horizon tasks. With only 8B parameters, Embodied-R1.5 achieves SOTA on 16 out of 24 embodied VLM benchmarks, surpassing leading models like Gemini-Robotics-ER-1.5 and GPT-5.4. Benefiting from the internalized embodied capabilities, Embodied-R1.5 can be fine-tuned into a VLA with only a small amount of data, outperforming leading VLA models like π_{0.5} across 4 popular manipulation benchmark suites. We further conduct extensive zero-shot real-robot experiments, validating performance in instruction following, affordance grounding, articulated object manipulation, and long-horizon complex tasks, demonstrating strong generalization to the physical world. We open-source model weights, datasets, training code, and EmbodiedEvalKit, an evaluation framework tailored for embodied tasks, to facilitate future research in EFMs.