InternVLA-M1: Un marco de visión-lenguaje-acción guiado espacialmente para políticas robóticas generalistas
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
October 15, 2025
Autores: Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu
cs.AI
Resumen
Presentamos InternVLA-M1, un marco unificado para la localización espacial y el control de robots que avanza hacia la inteligencia escalable y de propósito general en robots que siguen instrucciones. Su idea central es el entrenamiento guiado espacialmente de visión-lenguaje-acción, donde la localización espacial sirve como el vínculo crítico entre las instrucciones y las acciones del robot. InternVLA-M1 emplea un proceso de dos etapas: (i) pre-entrenamiento de localización espacial en más de 2.3 millones de datos de razonamiento espacial para determinar "dónde actuar" al alinear las instrucciones con posiciones visuales independientes de la forma física, y (ii) post-entrenamiento de acción guiada espacialmente para decidir "cómo actuar" generando acciones conscientes de la forma física mediante indicaciones espaciales plug-and-play. Esta receta de entrenamiento guiada espacialmente produce mejoras consistentes: InternVLA-M1 supera a su variante sin guía espacial en un +14.6% en SimplerEnv Google Robot, +17% en WidowX y +4.3% en LIBERO Franka, mientras demuestra una mayor capacidad de razonamiento espacial en predicciones de caja, punto y trazo. Para escalar aún más el seguimiento de instrucciones, construimos un motor de simulación para recopilar 244 mil episodios generalizables de recoger y colocar, logrando una mejora promedio del 6.2% en 200 tareas y más de 3 mil objetos. En recoger y colocar en entornos reales agrupados, InternVLA-M1 mejoró en un 7.3%, y con co-entrenamiento sintético, alcanzó un +20.6% en objetos no vistos y configuraciones novedosas. Además, en escenarios intensivos en razonamiento de largo plazo, superó a trabajos existentes en más del 10%. Estos resultados destacan el entrenamiento guiado espacialmente como un principio unificador para robots generalistas escalables y resilientes. El código y los modelos están disponibles en https://github.com/InternRobotics/InternVLA-M1.
English
We introduce InternVLA-M1, a unified framework for spatial grounding and
robot control that advances instruction-following robots toward scalable,
general-purpose intelligence. Its core idea is spatially guided
vision-language-action training, where spatial grounding serves as the critical
link between instructions and robot actions. InternVLA-M1 employs a two-stage
pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning
data to determine ``where to act'' by aligning instructions with visual,
embodiment-agnostic positions, and (ii) spatially guided action post-training
to decide ``how to act'' by generating embodiment-aware actions through
plug-and-play spatial prompting. This spatially guided training recipe yields
consistent gains: InternVLA-M1 outperforms its variant without spatial guidance
by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO
Franka, while demonstrating stronger spatial reasoning capability in box,
point, and trace prediction. To further scale instruction following, we built a
simulation engine to collect 244K generalizable pick-and-place episodes,
enabling a 6.2% average improvement across 200 tasks and 3K+ objects. In
real-world clustered pick-and-place, InternVLA-M1 improved by 7.3%, and with
synthetic co-training, achieved +20.6% on unseen objects and novel
configurations. Moreover, in long-horizon reasoning-intensive scenarios, it
surpassed existing works by over 10%. These results highlight spatially guided
training as a unifying principle for scalable and resilient generalist robots.
Code and models are available at
https://github.com/InternRobotics/InternVLA-M1.