InternVLA-M1: Um Framework Visão-Linguagem-Ação Guiado Espacialmente para Políticas de Robôs Generalistas
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
October 15, 2025
Autores: Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu
cs.AI
Resumo
Apresentamos o InternVLA-M1, um framework unificado para fundamentação espacial e controle de robôs que avança os robôs seguidores de instruções em direção a uma inteligência escalável e de propósito geral. Sua ideia central é o treinamento espacialmente guiado de visão-linguagem-ação, onde a fundamentação espacial serve como o elo crítico entre as instruções e as ações do robô. O InternVLA-M1 emprega um pipeline de dois estágios: (i) pré-treinamento de fundamentação espacial em mais de 2,3 milhões de dados de raciocínio espacial para determinar "onde agir", alinhando instruções com posições visuais e independentes da forma física do robô, e (ii) pós-treinamento de ação espacialmente guiada para decidir "como agir", gerando ações conscientes da forma física por meio de prompts espaciais plug-and-play. Essa receita de treinamento espacialmente guiado resulta em ganhos consistentes: o InternVLA-M1 supera sua variante sem orientação espacial em +14,6% no SimplerEnv Google Robot, +17% no WidowX e +4,3% no LIBERO Franka, enquanto demonstra uma capacidade de raciocínio espacial mais forte em previsões de caixa, ponto e traçado. Para escalar ainda mais o seguimento de instruções, construímos um motor de simulação para coletar 244 mil episódios generalizáveis de pegar e colocar, permitindo uma melhoria média de 6,2% em 200 tarefas e mais de 3 mil objetos. No mundo real, em tarefas de pegar e colocar em ambientes aglomerados, o InternVLA-M1 melhorou em 7,3%, e com co-treinamento sintético, alcançou +20,6% em objetos não vistos e configurações novas. Além disso, em cenários de raciocínio de longo prazo e intensivos, superou trabalhos existentes em mais de 10%. Esses resultados destacam o treinamento espacialmente guiado como um princípio unificador para robôs generalistas escaláveis e resilientes. Código e modelos estão disponíveis em https://github.com/InternRobotics/InternVLA-M1.
English
We introduce InternVLA-M1, a unified framework for spatial grounding and
robot control that advances instruction-following robots toward scalable,
general-purpose intelligence. Its core idea is spatially guided
vision-language-action training, where spatial grounding serves as the critical
link between instructions and robot actions. InternVLA-M1 employs a two-stage
pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning
data to determine ``where to act'' by aligning instructions with visual,
embodiment-agnostic positions, and (ii) spatially guided action post-training
to decide ``how to act'' by generating embodiment-aware actions through
plug-and-play spatial prompting. This spatially guided training recipe yields
consistent gains: InternVLA-M1 outperforms its variant without spatial guidance
by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO
Franka, while demonstrating stronger spatial reasoning capability in box,
point, and trace prediction. To further scale instruction following, we built a
simulation engine to collect 244K generalizable pick-and-place episodes,
enabling a 6.2% average improvement across 200 tasks and 3K+ objects. In
real-world clustered pick-and-place, InternVLA-M1 improved by 7.3%, and with
synthetic co-training, achieved +20.6% on unseen objects and novel
configurations. Moreover, in long-horizon reasoning-intensive scenarios, it
surpassed existing works by over 10%. These results highlight spatially guided
training as a unifying principle for scalable and resilient generalist robots.
Code and models are available at
https://github.com/InternRobotics/InternVLA-M1.