InternVLA-M1: Een ruimtelijk gestuurd visie-taal-actie raamwerk voor een generalistisch robotbeleid
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
October 15, 2025
Auteurs: Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu
cs.AI
Samenvatting
We introduceren InternVLA-M1, een uniform raamwerk voor ruimtelijke verankering en robotbesturing dat instructievolgende robots verder brengt richtung schaalbare, algemene intelligentie. De kernidee is ruimtelijk geleide visie-taal-actie training, waarbij ruimtelijke verankering de cruciale schakel vormt tussen instructies en robotacties. InternVLA-M1 maakt gebruik van een tweestaps pijplijn: (i) ruimtelijke verankeringsvooropleiding op meer dan 2,3M ruimtelijke redeneergegevens om te bepalen "waar te handelen" door instructies uit te lijnen met visuele, embodiment-agnostische posities, en (ii) ruimtelijk geleide actie-naopleiding om te beslissen "hoe te handelen" door embodiment-bewuste acties te genereren via plug-and-play ruimtelijke prompting. Dit ruimtelijk geleide trainingsrecept levert consistente verbeteringen op: InternVLA-M1 presteert beter dan zijn variant zonder ruimtelijke begeleiding met +14,6% op SimplerEnv Google Robot, +17% op WidowX, en +4,3% op LIBERO Franka, terwijl het sterkere ruimtelijke redeneervaardigheden demonstreert in voorspellingen van vakjes, punten en sporen. Om het volgen van instructies verder op te schalen, hebben we een simulatie-engine gebouwd om 244K generaliseerbare pick-and-place episodes te verzamelen, wat een gemiddelde verbetering van 6,2% oplevert over 200 taken en 3K+ objecten. In real-world geclusterde pick-and-place verbeterde InternVLA-M1 met 7,3%, en met synthetische co-training behaalde het +20,6% op onbekende objecten en nieuwe configuraties. Bovendien, in langetermijn redeneerintensieve scenario's, overtrof het bestaande werken met meer dan 10%. Deze resultaten benadrukken ruimtelijk geleide training als een verenigend principe voor schaalbare en veerkrachtige generalistische robots. Code en modellen zijn beschikbaar op https://github.com/InternRobotics/InternVLA-M1.
English
We introduce InternVLA-M1, a unified framework for spatial grounding and
robot control that advances instruction-following robots toward scalable,
general-purpose intelligence. Its core idea is spatially guided
vision-language-action training, where spatial grounding serves as the critical
link between instructions and robot actions. InternVLA-M1 employs a two-stage
pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning
data to determine ``where to act'' by aligning instructions with visual,
embodiment-agnostic positions, and (ii) spatially guided action post-training
to decide ``how to act'' by generating embodiment-aware actions through
plug-and-play spatial prompting. This spatially guided training recipe yields
consistent gains: InternVLA-M1 outperforms its variant without spatial guidance
by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO
Franka, while demonstrating stronger spatial reasoning capability in box,
point, and trace prediction. To further scale instruction following, we built a
simulation engine to collect 244K generalizable pick-and-place episodes,
enabling a 6.2% average improvement across 200 tasks and 3K+ objects. In
real-world clustered pick-and-place, InternVLA-M1 improved by 7.3%, and with
synthetic co-training, achieved +20.6% on unseen objects and novel
configurations. Moreover, in long-horizon reasoning-intensive scenarios, it
surpassed existing works by over 10%. These results highlight spatially guided
training as a unifying principle for scalable and resilient generalist robots.
Code and models are available at
https://github.com/InternRobotics/InternVLA-M1.