InternVLA-M1: Un Framework Visione-Linguaggio-Azione Guidato Spazialmente per Politiche Robotiche Generaliste
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
October 15, 2025
Autori: Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu
cs.AI
Abstract
Presentiamo InternVLA-M1, un framework unificato per il grounding spaziale e il controllo robotico che avanza i robot esecutori di istruzioni verso un'intelligenza generale e scalabile. La sua idea centrale è l'addestramento visione-linguaggio-azione guidato spazialmente, dove il grounding spaziale funge da collegamento critico tra le istruzioni e le azioni del robot. InternVLA-M1 utilizza una pipeline in due fasi: (i) pre-addestramento di grounding spaziale su oltre 2,3 milioni di dati di ragionamento spaziale per determinare "dove agire" allineando le istruzioni con posizioni visive indipendenti dall'embodiment, e (ii) post-addestramento di azione guidata spazialmente per decidere "come agire" generando azioni consapevoli dell'embodiment tramite prompt spaziali plug-and-play. Questa ricetta di addestramento guidata spazialmente produce guadagni consistenti: InternVLA-M1 supera la sua variante senza guida spaziale del +14,6% su SimplerEnv Google Robot, del +17% su WidowX e del +4,3% su LIBERO Franka, dimostrando inoltre una capacità di ragionamento spaziale più forte nelle previsioni di box, punti e tracce. Per scalare ulteriormente l'esecuzione di istruzioni, abbiamo costruito un motore di simulazione per raccogliere 244.000 episodi generalizzabili di pick-and-place, ottenendo un miglioramento medio del 6,2% su 200 task e oltre 3.000 oggetti. Nel pick-and-place reale in ambienti affollati, InternVLA-M1 ha migliorato del 7,3%, e con il co-addestramento sintetico, ha raggiunto un +20,6% su oggetti non visti e configurazioni nuove. Inoltre, in scenari di ragionamento a lungo termine e ad alta intensità, ha superato i lavori esistenti di oltre il 10%. Questi risultati evidenziano l'addestramento guidato spazialmente come principio unificante per robot generalisti scalabili e resilienti. Codice e modelli sono disponibili su https://github.com/InternRobotics/InternVLA-M1.
English
We introduce InternVLA-M1, a unified framework for spatial grounding and
robot control that advances instruction-following robots toward scalable,
general-purpose intelligence. Its core idea is spatially guided
vision-language-action training, where spatial grounding serves as the critical
link between instructions and robot actions. InternVLA-M1 employs a two-stage
pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning
data to determine ``where to act'' by aligning instructions with visual,
embodiment-agnostic positions, and (ii) spatially guided action post-training
to decide ``how to act'' by generating embodiment-aware actions through
plug-and-play spatial prompting. This spatially guided training recipe yields
consistent gains: InternVLA-M1 outperforms its variant without spatial guidance
by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO
Franka, while demonstrating stronger spatial reasoning capability in box,
point, and trace prediction. To further scale instruction following, we built a
simulation engine to collect 244K generalizable pick-and-place episodes,
enabling a 6.2% average improvement across 200 tasks and 3K+ objects. In
real-world clustered pick-and-place, InternVLA-M1 improved by 7.3%, and with
synthetic co-training, achieved +20.6% on unseen objects and novel
configurations. Moreover, in long-horizon reasoning-intensive scenarios, it
surpassed existing works by over 10%. These results highlight spatially guided
training as a unifying principle for scalable and resilient generalist robots.
Code and models are available at
https://github.com/InternRobotics/InternVLA-M1.