InternVLA-M1 : Un cadre vision-langage-action guidé spatialement pour une politique robotique généraliste
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
October 15, 2025
papers.authors: Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu
cs.AI
papers.abstract
Nous présentons InternVLA-M1, un cadre unifié pour l'ancrage spatial et le contrôle robotique qui fait progresser les robots obéissant aux instructions vers une intelligence généraliste et évolutive. Son idée centrale repose sur un entraînement vision-langue-action guidé spatialement, où l'ancrage spatial sert de lien critique entre les instructions et les actions du robot. InternVLA-M1 utilise un pipeline en deux étapes : (i) un pré-entraînement d'ancrage spatial sur plus de 2,3 millions de données de raisonnement spatial pour déterminer « où agir » en alignant les instructions avec des positions visuelles indépendantes de l'incarnation, et (ii) un post-entraînement d'action guidé spatialement pour décider « comment agir » en générant des actions adaptées à l'incarnation via des invites spatiales plug-and-play. Cette recette d'entraînement guidé spatialement apporte des gains constants : InternVLA-M1 surpasse sa variante sans guidage spatial de +14,6 % sur SimplerEnv Google Robot, +17 % sur WidowX et +4,3 % sur LIBERO Franka, tout en démontrant une capacité de raisonnement spatial plus forte dans les prédictions de boîtes, de points et de tracés. Pour étendre davantage l'obéissance aux instructions, nous avons construit un moteur de simulation pour collecter 244 000 épisodes généralisables de prise et dépose, permettant une amélioration moyenne de 6,2 % sur 200 tâches et plus de 3 000 objets. Dans des scénarios réels de prise et dépose en environnement encombré, InternVLA-M1 a progressé de 7,3 %, et avec un co-entraînement synthétique, a atteint +20,6 % sur des objets inconnus et des configurations nouvelles. De plus, dans des scénarios à long terme intensifs en raisonnement, il a surpassé les travaux existants de plus de 10 %. Ces résultats mettent en évidence l'entraînement guidé spatialement comme un principe unificateur pour des robots généralistes évolutifs et résilients. Le code et les modèles sont disponibles à l'adresse https://github.com/InternRobotics/InternVLA-M1.
English
We introduce InternVLA-M1, a unified framework for spatial grounding and
robot control that advances instruction-following robots toward scalable,
general-purpose intelligence. Its core idea is spatially guided
vision-language-action training, where spatial grounding serves as the critical
link between instructions and robot actions. InternVLA-M1 employs a two-stage
pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning
data to determine ``where to act'' by aligning instructions with visual,
embodiment-agnostic positions, and (ii) spatially guided action post-training
to decide ``how to act'' by generating embodiment-aware actions through
plug-and-play spatial prompting. This spatially guided training recipe yields
consistent gains: InternVLA-M1 outperforms its variant without spatial guidance
by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO
Franka, while demonstrating stronger spatial reasoning capability in box,
point, and trace prediction. To further scale instruction following, we built a
simulation engine to collect 244K generalizable pick-and-place episodes,
enabling a 6.2% average improvement across 200 tasks and 3K+ objects. In
real-world clustered pick-and-place, InternVLA-M1 improved by 7.3%, and with
synthetic co-training, achieved +20.6% on unseen objects and novel
configurations. Moreover, in long-horizon reasoning-intensive scenarios, it
surpassed existing works by over 10%. These results highlight spatially guided
training as a unifying principle for scalable and resilient generalist robots.
Code and models are available at
https://github.com/InternRobotics/InternVLA-M1.