ChatPaper.aiChatPaper

Embodied-R1.5:身体化基盤モデルによる物理的知能の進化

Embodied-R1.5: Evolving Physical Intelligence via Embodied Foundation Models

June 9, 2026
著者: Yifu Yuan, Yaoting Huang, Xianze Yao, Yutong Li, Shuoheng Zhang, Linqi Han, Pengyi Li, Jiangeng Sun, Wenting Jia, Zhao Zhang, Yuhao Liu, Ruihao Liao, Yucheng Hu, Qiyu Wu, Yuxiao Li, Zibin Dong, Fei Ni, Yan Zheng, Shuyang Gu, Yi Ma, Hongyao Tang, Han Hu, Jianye Hao
cs.AI

要旨

我々は、単一アーキテクチャ内で身体化認知、タスク計画、修正、ポインティングにわたる包括的な身体化推論能力を統合し、汎用物理知能を目指す統一的身体化基盤モデル(EFM)、Embodied-R1.5を紹介する。3つの自動データ構築パイプラインを活用することで、重要な能力のデータカバレッジを大幅に拡大し、150億トークンを超える大規模データシステムを構築するとともに、異種タスク間の競合を緩和するマルチタスク均衡強化学習手法を設計した。さらに、単一モデルが長期的タスクを自律的に実行し自己修正することを可能にする、Planner-Grounder-Corrector(PGC)クローズドループフレームワークを導入する。わずか80億パラメータでありながら、Embodied-R1.5は24の身体化VLMベンチマークのうち16項目で最先端性能を達成し、Gemini-Robotics-ER-1.5やGPT-5.4などの主要モデルを凌駕する。内包化された身体化能力の恩恵により、Embodied-R1.5は少量のデータのみでVLAにファインチューニング可能であり、π_{0.5}などの主要VLAモデルを4つの主要操作ベンチマークスイートで凌駕する。さらに、広範なゼロショット実ロボット実験を実施し、指示追従、アフォーダンス接地、可動物体操作、長期的複雑タスクにおける性能を検証し、物理世界への強力な一般化能力を実証した。モデル重み、データセット、訓練コード、および身体化タスク向けに設計された評価フレームワークEmbodiedEvalKitをオープンソース化し、EFMの将来研究を促進する。
English
We introduce Embodied-R1.5, a unified Embodied Foundation Model (EFM) that integrates comprehensive embodied reasoning capabilities, spanning embodied cognition, task planning, correction, and pointing, within a single architecture toward general physical intelligence. Leveraging three automated data construction pipelines to significantly expand the data coverage of critical capabilities, we build a large-scale data system of over 15B tokens, and design a multi-task balanced RL recipe to alleviate heterogeneous task conflicts. We further introduce a Planner-Grounder-Corrector (PGC) closed-loop framework that enables a single model to autonomously execute and self-correct over long-horizon tasks. With only 8B parameters, Embodied-R1.5 achieves SOTA on 16 out of 24 embodied VLM benchmarks, surpassing leading models like Gemini-Robotics-ER-1.5 and GPT-5.4. Benefiting from the internalized embodied capabilities, Embodied-R1.5 can be fine-tuned into a VLA with only a small amount of data, outperforming leading VLA models like π_{0.5} across 4 popular manipulation benchmark suites. We further conduct extensive zero-shot real-robot experiments, validating performance in instruction following, affordance grounding, articulated object manipulation, and long-horizon complex tasks, demonstrating strong generalization to the physical world. We open-source model weights, datasets, training code, and EmbodiedEvalKit, an evaluation framework tailored for embodied tasks, to facilitate future research in EFMs.