ChatPaper.aiChatPaper

MiMo-Embodied: X-구현체 기반 파운데이션 모델 기술 보고서

MiMo-Embodied: X-Embodied Foundation Model Technical Report

November 20, 2025
저자: Xiaoshuai Hao, Lei Zhou, Zhijian Huang, Zhiwen Hou, Yingbo Tang, Lingfeng Zhang, Guang Li, Zheng Lu, Shuhuai Ren, Xianhui Meng, Yuchen Zhang, Jing Wu, Jinghui Lu, Chenxu Dang, Jiayi Guan, Jianhua Wu, Zhiyi Hou, Hanbing Li, Shumeng Xia, Mingliang Zhou, Yinan Zheng, Zihao Yue, Shuhao Gu, Hao Tian, Yuannan Shen, Jianwei Cui, Wen Zhang, Shaoqing Xu, Bing Wang, Haiyang Sun, Zeyu Zhu, Yuncheng Jiang, Zibin Guo, Chuhong Gong, Chaofan Zhang, Wenbo Ding, Kun Ma, Guang Chen, Rui Cai, Diyun Xiang, Heng Qu, Fuli Luo, Hangjun Ye, Long Chen
cs.AI

초록

MiMo-Embodied를 오픈소스로 공개합니다. 이는 자율주행과 Embodied AI 두 분야를 성공적으로 통합하고 최첨단 성능을 달성한 최초의 크로스-엠바디드 파운데이션 모델입니다. MiMo-Embodied는 작업 계획(Task Planning), 어포던스 예측(Affordance Prediction), 공간 이해(Spatial Understanding) 분야의 17개 Embodied AI 벤치마크에서 새로운 기록을 수립했으며, 환경 인지(Environmental Perception), 상태 예측(Status Prediction), 주행 계획(Driving Planning) 분야의 12개 자율주행 벤치마크에서도 뛰어난 성과를 보였습니다. 이러한 다양한 과제에서 MiMo-Embodied는 기존의 오픈소스, 클로즈드소스 및 특화된 베이스라인 모델들을 크게 능가합니다. 우리의 연구 결과는 다단계 학습, 정제된 데이터 구축, CoT/RL 미세 조정을 통해 이 두 영역이 강력한 긍정적 전이(positive transfer)를 보이며 상호 보완적으로 작용함을 시사합니다. 향후 연구를 촉진하기 위해 모델 설계 및 훈련 방법론에 대한 상세한 분석을 제공합니다. 코드와 모델은 https://github.com/XiaomiMiMo/MiMo-Embodied 에서 이용하실 수 있습니다.
English
We open-source MiMo-Embodied, the first cross-embodied foundation model to successfully integrate and achieve state-of-the-art performance in both Autonomous Driving and Embodied AI. MiMo-Embodied sets new records across 17 embodied AI benchmarks in Task Planning, Affordance Prediction and Spatial Understanding, while also excelling in 12 autonomous driving benchmarks across Environmental Perception, Status Prediction, and Driving Planning. Across these tasks, MiMo-Embodied significantly outperforms existing open-source, closed-source, and specialized baselines. Our results indicate that through multi-stage learning, curated data construction, and CoT/RL fine-tuning, these two domains exhibit strong positive transfer and mutually reinforce one another. We provide a detailed analysis of our model design and training methodologies to facilitate further research. Code and models are available at https://github.com/XiaomiMiMo/MiMo-Embodied.
PDF232December 1, 2025