EmbodiedMidtrain: Het overbruggen van de kloof tussen visie-taalmodellen en visie-taal-actiemodellen via mid-training

Samenvatting

Vision-Language-Action-modellen (VLA's) erven hun visuele en linguïstische capaciteiten van Vision-Language-modellen (VLM's), maar de meeste VLA's worden gebouwd met standaard VLM's die niet zijn aangepast aan het embodied domein, wat hun prestaties downstream beperkt. In dit werk stellen we EmbodiedMidtrain voor om de kloof tussen VLM's en VLA's te overbruggen. We karakteriseren eerst de kloof in de dataverdeling tussen beide, waarbij we aantonen dat VLA-data compacte regio's innemen die grotendeels gescheiden zijn van de bredere VLM-verdeling, terwijl de mate van alignering aanzienlijk varieert, zowel tussen als binnen VLM-databronnen. Vervolgens bouwen we een mid-training data-engine die gebruikmaakt van een lichtgewicht, leerbare proximity estimator om de meest VLA-gelignede kandidaten te selecteren uit een grote VLM-pool, en mid-traint de VLM op deze gecureerde mix voordat downstream VLA-finetuning plaatsvindt. Experimenten op drie robotmanipulatiebenchmarks tonen aan dat mid-training consequent de prestaties verbetert over verschillende VLM-backbones heen, met resultaten die competitief zijn met gespecialiseerde VLA's en standaard VLM's die zijn getraind met grotere modelschalen en trainingsbudgetten. Verdere analyse onthult dat mid-training een sterkere initialisatie biedt voor VLA-finetuning, waarbij de winst al vanaf de eerste trainingsstappen ontstaat en gedurende de training toeneemt. Bovendien vangt de data-engine zowel dataset- als voorbeeldniveau-aligneringssignalen op, met een voorkeur voor ruimtelijk redeneren boven tekstgecentreerde taken, terwijl de diversiteit van de VLM-data behouden blijft. We zullen alle code, data en modellen vrijgeven voor toekomstig onderzoek.

English

Vision-Language-Action Models (VLAs) inherit their visual and linguistic capabilities from Vision-Language Models (VLMs), yet most VLAs are built from off-the-shelf VLMs that are not adapted to the embodied domain, limiting their downstream performance. In this work, we propose EmbodiedMidtrain to bridge the gap between VLMs and VLAs. We first characterize the data distribution gap between them, showing that VLA data occupy compact regions that are largely separated from the broader VLM distribution, while the degree of alignment varies substantially both across and within VLM data sources. Then, we build a mid-training data engine that leverages a lightweight learnable proximity estimator to select the most VLA-aligned candidates from a large VLM pool, and mid-trains the VLM on this curated mixture before downstream VLA fine-tuning. Experiments on three robot manipulation benchmarks show that mid-training consistently improves performance across different VLM backbones, achieving results competitive with expert VLAs and off-the-shelf VLMs trained with larger model scale and training budgets. Further analysis reveals that mid-training provides a stronger initialization for VLA fine-tuning, with gains emerging from the earliest steps and widening throughout training. Moreover, the data engine captures both dataset-level and sample-level alignment signals, favoring spatial reasoning over text-centric tasks while preserving the diversity of the VLM data. We will release all code, data and models for future research.

EmbodiedMidtrain: Het overbruggen van de kloof tussen visie-taalmodellen en visie-taal-actiemodellen via mid-training

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

Samenvatting

Support