ChatPaper.aiChatPaper

InternVLA-M1: 汎用ロボットポリシーのための空間誘導型視覚-言語-行動フレームワーク

InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

October 15, 2025
著者: Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu
cs.AI

要旨

本論文では、空間的基盤とロボット制御を統合したフレームワークであるInternVLA-M1を紹介する。このフレームワークは、指示追従型ロボットを拡張可能で汎用的な知能へと進化させることを目指している。その核となるアイデアは、空間的に誘導された視覚-言語-行動トレーニングであり、空間的基盤が指示とロボット行動の間の重要なリンクとして機能する。InternVLA-M1は、2段階のパイプラインを採用している:(i) 230万以上の空間推論データを用いた空間的基盤の事前トレーニングにより、指示と視覚的でエンボディメントに依存しない位置を整合させて「どこで行動するか」を決定し、(ii) 空間的に誘導された行動の事後トレーニングにより、プラグアンドプレイの空間プロンプティングを通じてエンボディメントを意識した行動を生成し「どのように行動するか」を決定する。この空間的に誘導されたトレーニング手法は、一貫した向上をもたらす:InternVLA-M1は、空間的誘導なしのバリアントと比較して、SimplerEnv Google Robotで+14.6%、WidowXで+17%、LIBERO Frankaで+4.3%の性能向上を示し、ボックス、ポイント、トレース予測においてより強力な空間推論能力を発揮する。指示追従をさらに拡張するために、244,000の汎用的なピックアンドプレースエピソードを収集するシミュレーションエンジンを構築し、200のタスクと3,000以上のオブジェクトにわたって平均6.2%の改善を実現した。実世界のクラスタードピックアンドプレースでは、InternVLA-M1は7.3%の改善を示し、合成データを用いた共トレーニングにより、未見のオブジェクトと新しい構成に対して+20.6%の性能向上を達成した。さらに、長期的な推論が求められるシナリオでは、既存の研究を10%以上上回る結果を示した。これらの結果は、空間的に誘導されたトレーニングが、拡張性と耐性を備えた汎用ロボットの統一原理としての重要性を強調している。コードとモデルはhttps://github.com/InternRobotics/InternVLA-M1で公開されている。
English
We introduce InternVLA-M1, a unified framework for spatial grounding and robot control that advances instruction-following robots toward scalable, general-purpose intelligence. Its core idea is spatially guided vision-language-action training, where spatial grounding serves as the critical link between instructions and robot actions. InternVLA-M1 employs a two-stage pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning data to determine ``where to act'' by aligning instructions with visual, embodiment-agnostic positions, and (ii) spatially guided action post-training to decide ``how to act'' by generating embodiment-aware actions through plug-and-play spatial prompting. This spatially guided training recipe yields consistent gains: InternVLA-M1 outperforms its variant without spatial guidance by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO Franka, while demonstrating stronger spatial reasoning capability in box, point, and trace prediction. To further scale instruction following, we built a simulation engine to collect 244K generalizable pick-and-place episodes, enabling a 6.2% average improvement across 200 tasks and 3K+ objects. In real-world clustered pick-and-place, InternVLA-M1 improved by 7.3%, and with synthetic co-training, achieved +20.6% on unseen objects and novel configurations. Moreover, in long-horizon reasoning-intensive scenarios, it surpassed existing works by over 10%. These results highlight spatially guided training as a unifying principle for scalable and resilient generalist robots. Code and models are available at https://github.com/InternRobotics/InternVLA-M1.
PDF162October 16, 2025