EmbodiedMidtrain: Überbrückung der Kluft zwischen Vision-Sprache-Modellen und Vision-Sprache-Handlung-Modellen durch Mid-Training

Zusammenfassung

Vision-Language-Action-Modelle (VLAs) erben ihre visuellen und sprachlichen Fähigkeiten von Vision-Language-Modellen (VLMs). Dennoch basieren die meisten VLAs auf Standard-VLMs, die nicht an den Embodied-Bereich angepasst sind, was ihre nachgelagerte Leistung begrenzt. In dieser Arbeit schlagen wir EmbodiedMidtrain vor, um die Lücke zwischen VLMs und VLAs zu schließen. Zunächst charakterisieren wir die Datenverteilungslücke zwischen ihnen und zeigen, dass VLA-Daten kompakte Regionen einnehmen, die weitgehend von der breiteren VLM-Verteilung getrennt sind, wobei der Grad der Übereinstimmung sowohl zwischen verschiedenen VLM-Datenquellen als auch innerhalb dieser Quellen erheblich variiert. Anschließend entwickeln wir eine Mid-Training-Datenengine, die einen leichtgewichtigen, erlernbaren Näherungsschätzer nutzt, um die am besten mit VLAs abgeglichenen Kandidaten aus einem großen VLM-Pool auszuwählen. Das VLM wird dann auf dieser kuratierten Mischung mid-trainiert, bevor das Feinabstimmen für den nachgelagerten VLA-Einsatz erfolgt. Experimente mit drei Robotermanipulations-Benchmarks zeigen, dass Mid-Training die Leistung über verschiedene VLM-Backbones hinweg konsistent verbessert und Ergebnisse erzielt, die mit spezialisierten VLAs und Standard-VLMs konkurrenzfähig sind, die mit größerer Modellgröße und höherem Trainingsaufwand trainiert wurden. Eine weitere Analyse zeigt, dass Mid-Training eine stärkere Initialisierung für das VLA-Feintuning bietet, wobei die Verbesserungen bereits in den frühesten Trainingsschritten auftreten und sich während des gesamten Trainings vergrößern. Darüber hinaus erfasst die Datenengine sowohl datensatz- als auch beispielbezogene Übereinstimmungssignale, begünstigt räumliches Schließen gegenüber textzentrierten Aufgaben und bewahrt gleichzeitig die Vielfalt der VLM-Daten. Wir werden allen Code, Daten und Modelle für die zukünftige Forschung veröffentlichen.

English

Vision-Language-Action Models (VLAs) inherit their visual and linguistic capabilities from Vision-Language Models (VLMs), yet most VLAs are built from off-the-shelf VLMs that are not adapted to the embodied domain, limiting their downstream performance. In this work, we propose EmbodiedMidtrain to bridge the gap between VLMs and VLAs. We first characterize the data distribution gap between them, showing that VLA data occupy compact regions that are largely separated from the broader VLM distribution, while the degree of alignment varies substantially both across and within VLM data sources. Then, we build a mid-training data engine that leverages a lightweight learnable proximity estimator to select the most VLA-aligned candidates from a large VLM pool, and mid-trains the VLM on this curated mixture before downstream VLA fine-tuning. Experiments on three robot manipulation benchmarks show that mid-training consistently improves performance across different VLM backbones, achieving results competitive with expert VLAs and off-the-shelf VLMs trained with larger model scale and training budgets. Further analysis reveals that mid-training provides a stronger initialization for VLA fine-tuning, with gains emerging from the earliest steps and widening throughout training. Moreover, the data engine captures both dataset-level and sample-level alignment signals, favoring spatial reasoning over text-centric tasks while preserving the diversity of the VLM data. We will release all code, data and models for future research.

EmbodiedMidtrain: Überbrückung der Kluft zwischen Vision-Sprache-Modellen und Vision-Sprache-Handlung-Modellen durch Mid-Training

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

Zusammenfassung

Support