InternVLA-M1: Ein räumlich geführtes Vision-Sprache-Handlung-Framework für generalistische Roboterpolitik

papers.abstract

Wir stellen InternVLA-M1 vor, ein einheitliches Framework für räumliche Verankerung und Robotersteuerung, das befehlsfolgende Roboter in Richtung skalierbarer, allgemeiner Intelligenz vorantreibt. Der Kernansatz besteht in einem räumlich geleiteten Vision-Sprache-Aktion-Training, bei dem die räumliche Verankerung als kritische Verbindung zwischen Anweisungen und Roboteraktionen dient. InternVLA-M1 verwendet eine zweistufige Pipeline: (i) räumliche Verankerungs-Vortraining auf über 2,3 Millionen räumlichen Schlussfolgerungsdaten, um zu bestimmen, „wo gehandelt werden soll“, indem Anweisungen mit visuellen, verkörperungsunabhängigen Positionen abgeglichen werden, und (ii) räumlich geleitetes Aktionstraining, um zu entscheiden, „wie gehandelt werden soll“, indem verkörperungsbewusste Aktionen durch Plug-and-Play räumliche Prompting generiert werden. Dieses räumlich geleitete Trainingsrezept führt zu konsistenten Verbesserungen: InternVLA-M1 übertrifft seine Variante ohne räumliche Führung um +14,6 % auf SimplerEnv Google Robot, +17 % auf WidowX und +4,3 % auf LIBERO Franka, während es eine stärkere räumliche Schlussfolgerungsfähigkeit bei Box-, Punkt- und Spurvorhersagen zeigt. Um die Befehlsfolge weiter zu skalieren, haben wir eine Simulationsengine entwickelt, um 244.000 generalisierbare Pick-and-Place-Episoden zu sammeln, was eine durchschnittliche Verbesserung von 6,2 % über 200 Aufgaben und 3.000+ Objekte ermöglicht. Bei realen, gruppierten Pick-and-Place-Aufgaben verbesserte sich InternVLA-M1 um 7,3 %, und mit synthetischem Co-Training erreichte es +20,6 % bei unbekannten Objekten und neuen Konfigurationen. Darüber hinaus übertraf es in langfristigen, schlussfolgerungsintensiven Szenarien bestehende Arbeiten um über 10 %. Diese Ergebnisse unterstreichen das räumlich geleitete Training als ein vereinheitlichendes Prinzip für skalierbare und widerstandsfähige Generalisten-Roboter. Code und Modelle sind verfügbar unter https://github.com/InternRobotics/InternVLA-M1.

English

We introduce InternVLA-M1, a unified framework for spatial grounding and robot control that advances instruction-following robots toward scalable, general-purpose intelligence. Its core idea is spatially guided vision-language-action training, where spatial grounding serves as the critical link between instructions and robot actions. InternVLA-M1 employs a two-stage pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning data to determine ``where to act'' by aligning instructions with visual, embodiment-agnostic positions, and (ii) spatially guided action post-training to decide ``how to act'' by generating embodiment-aware actions through plug-and-play spatial prompting. This spatially guided training recipe yields consistent gains: InternVLA-M1 outperforms its variant without spatial guidance by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO Franka, while demonstrating stronger spatial reasoning capability in box, point, and trace prediction. To further scale instruction following, we built a simulation engine to collect 244K generalizable pick-and-place episodes, enabling a 6.2% average improvement across 200 tasks and 3K+ objects. In real-world clustered pick-and-place, InternVLA-M1 improved by 7.3%, and with synthetic co-training, achieved +20.6% on unseen objects and novel configurations. Moreover, in long-horizon reasoning-intensive scenarios, it surpassed existing works by over 10%. These results highlight spatially guided training as a unifying principle for scalable and resilient generalist robots. Code and models are available at https://github.com/InternRobotics/InternVLA-M1.

InternVLA-M1: Ein räumlich geführtes Vision-Sprache-Handlung-Framework für generalistische Roboterpolitik

InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

papers.abstract

Support