ChatPaper.aiChatPaper

InternVLA-M1: 일반화된 로봇 정책을 위한 공간적 지도가 포함된 비전-언어-행동 프레임워크

InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

October 15, 2025
저자: Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu
cs.AI

초록

우리는 공간적 기반과 로봇 제어를 통합한 프레임워크인 InternVLA-M1을 소개하며, 이는 명령 수행 로봇을 확장 가능하고 범용적인 지능으로 발전시키는 데 기여합니다. 이 프레임워크의 핵심 아이디어는 공간적으로 안내된 시각-언어-행동 훈련으로, 여기서 공간적 기반은 명령과 로봇 행동 사이의 중요한 연결 고리 역할을 합니다. InternVLA-M1은 두 단계의 파이프라인을 사용합니다: (i) 230만 개 이상의 공간 추론 데이터를 기반으로 한 공간적 기반 사전 훈련으로, 명령을 시각적이고 구체화에 구애받지 않는 위치와 정렬하여 "어디에서 행동할지"를 결정하고, (ii) 공간적으로 안내된 행동 사후 훈련으로, 플러그 앤 플레이 방식의 공간 프롬프트를 통해 구체화를 고려한 행동을 생성하여 "어떻게 행동할지"를 결정합니다. 이 공간적으로 안내된 훈련 방법은 일관된 성능 향상을 가져옵니다: InternVLA-M1은 공간적 안내가 없는 변형보다 SimplerEnv Google Robot에서 +14.6%, WidowX에서 +17%, LIBERO Franka에서 +4.3% 더 우수한 성능을 보이며, 상자, 점, 추적 예측에서 더 강력한 공간 추론 능력을 입증했습니다. 명령 수행을 더욱 확장하기 위해, 우리는 244,000개의 일반화 가능한 집기 및 놓기 에피소드를 수집할 수 있는 시뮬레이션 엔진을 구축하여 200개 작업과 3,000개 이상의 객체에 걸쳐 평균 6.2%의 성능 향상을 이끌어냈습니다. 실제 세계의 복잡한 집기 및 놓기 작업에서 InternVLA-M1은 7.3%의 성능 향상을 보였으며, 합성 데이터를 활용한 공동 훈련을 통해 보지 못한 객체와 새로운 구성에서 +20.6%의 성능 향상을 달성했습니다. 또한, 장기적이고 추론 집약적인 시나리오에서는 기존 작업을 10% 이상 능가했습니다. 이러한 결과는 공간적으로 안내된 훈련이 확장 가능하고 탄력적인 범용 로봇을 위한 통합 원칙임을 강조합니다. 코드와 모델은 https://github.com/InternRobotics/InternVLA-M1에서 확인할 수 있습니다.
English
We introduce InternVLA-M1, a unified framework for spatial grounding and robot control that advances instruction-following robots toward scalable, general-purpose intelligence. Its core idea is spatially guided vision-language-action training, where spatial grounding serves as the critical link between instructions and robot actions. InternVLA-M1 employs a two-stage pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning data to determine ``where to act'' by aligning instructions with visual, embodiment-agnostic positions, and (ii) spatially guided action post-training to decide ``how to act'' by generating embodiment-aware actions through plug-and-play spatial prompting. This spatially guided training recipe yields consistent gains: InternVLA-M1 outperforms its variant without spatial guidance by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO Franka, while demonstrating stronger spatial reasoning capability in box, point, and trace prediction. To further scale instruction following, we built a simulation engine to collect 244K generalizable pick-and-place episodes, enabling a 6.2% average improvement across 200 tasks and 3K+ objects. In real-world clustered pick-and-place, InternVLA-M1 improved by 7.3%, and with synthetic co-training, achieved +20.6% on unseen objects and novel configurations. Moreover, in long-horizon reasoning-intensive scenarios, it surpassed existing works by over 10%. These results highlight spatially guided training as a unifying principle for scalable and resilient generalist robots. Code and models are available at https://github.com/InternRobotics/InternVLA-M1.
PDF162October 16, 2025