InternVLA-M1: Пространственно-ориентированная фреймворк Vision-Language-Action для универсальной политики роботов
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
October 15, 2025
Авторы: Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu
cs.AI
Аннотация
Мы представляем InternVLA-M1, унифицированную платформу для пространственного заземления и управления роботами, которая продвигает роботов, следующих инструкциям, к масштабируемому и универсальному интеллекту. Её ключевая идея заключается в пространственно направленном обучении на стыке зрения, языка и действий, где пространственное заземление служит критической связью между инструкциями и действиями робота. InternVLA-M1 использует двухэтапный процесс: (i) предварительное обучение пространственному заземлению на более чем 2,3 млн данных для пространственного рассуждения, чтобы определить «где действовать», согласовывая инструкции с визуальными, независимыми от воплощения позициями, и (ii) пространственно направленное пост-обучение действиям для определения «как действовать», генерируя действия, учитывающие воплощение, через модульное пространственное подсказывание. Этот подход пространственно направленного обучения обеспечивает стабильные улучшения: InternVLA-M1 превосходит свою версию без пространственного руководства на +14,6% в SimplerEnv Google Robot, на +17% в WidowX и на +4,3% в LIBERO Franka, демонстрируя более сильные способности к пространственному рассуждению в задачах предсказания коробок, точек и траекторий. Для дальнейшего масштабирования следования инструкциям мы разработали симулятор для сбора 244 тыс. универсальных эпизодов pick-and-place, что обеспечило среднее улучшение на 6,2% по 200 задачам и более чем 3 тыс. объектов. В реальных задачах pick-and-place в сложных условиях InternVLA-M1 улучшил результаты на 7,3%, а с синтетическим совместным обучением достиг +20,6% на неизвестных объектах и новых конфигурациях. Более того, в сценариях с длительным горизонтом и интенсивным рассуждением он превзошёл существующие работы более чем на 10%. Эти результаты подчеркивают пространственно направленное обучение как объединяющий принцип для создания масштабируемых и устойчивых универсальных роботов. Код и модели доступны по адресу https://github.com/InternRobotics/InternVLA-M1.
English
We introduce InternVLA-M1, a unified framework for spatial grounding and
robot control that advances instruction-following robots toward scalable,
general-purpose intelligence. Its core idea is spatially guided
vision-language-action training, where spatial grounding serves as the critical
link between instructions and robot actions. InternVLA-M1 employs a two-stage
pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning
data to determine ``where to act'' by aligning instructions with visual,
embodiment-agnostic positions, and (ii) spatially guided action post-training
to decide ``how to act'' by generating embodiment-aware actions through
plug-and-play spatial prompting. This spatially guided training recipe yields
consistent gains: InternVLA-M1 outperforms its variant without spatial guidance
by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO
Franka, while demonstrating stronger spatial reasoning capability in box,
point, and trace prediction. To further scale instruction following, we built a
simulation engine to collect 244K generalizable pick-and-place episodes,
enabling a 6.2% average improvement across 200 tasks and 3K+ objects. In
real-world clustered pick-and-place, InternVLA-M1 improved by 7.3%, and with
synthetic co-training, achieved +20.6% on unseen objects and novel
configurations. Moreover, in long-horizon reasoning-intensive scenarios, it
surpassed existing works by over 10%. These results highlight spatially guided
training as a unifying principle for scalable and resilient generalist robots.
Code and models are available at
https://github.com/InternRobotics/InternVLA-M1.