EmbodiedMidtrain : Combler l'écart entre les modèles vision-langage et les modèles vision-langage-action via un entraînement intermédiaire
EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training
April 21, 2026
Auteurs: Yiyang Du, Zhanqiu Guo, Xin Ye, Liu Ren, Chenyan Xiong
cs.AI
Résumé
Les modèles vision-langage-action (VLA) héritent de leurs capacités visuelles et linguistiques des modèles vision-langage (VLM), mais la plupart des VLA sont construits à partir de VLM standards non adaptés au domaine de l'embodiment, ce qui limite leurs performances en aval. Dans ce travail, nous proposons EmbodiedMidtrain pour combler le fossé entre les VLM et les VLA. Nous caractérisons d'abord l'écart de distribution des données entre eux, montrant que les données VLA occupent des régions compactes largement séparées de la distribution VLM générale, tandis que le degré d'alignement varie considérablement entre et au sein des sources de données VLM. Ensuite, nous construisons un moteur de données pour l'entraînement intermédiaire qui exploite un estimateur de proximité léger et apprenable pour sélectionner les candidats les plus alignés sur les VLA à partir d'un large pool de VLM, et procédons à l'entraînement intermédiaire du VLM sur ce mélange curaté avant le réglage fin en aval pour les VLA. Les expériences sur trois benchmarks de manipulation robotique montrent que l'entraînement intermédiaire améliore constamment les performances sur différentes architectures de VLM, obtenant des résultats compétitifs avec les VLA experts et les VLM standards entraînés avec des échelles de modèles et des budgets d'entraînement plus importants. Une analyse plus poussée révèle que l'entraînement intermédiaire fournit une initialisation plus solide pour le réglage fin des VLA, les gains apparaissant dès les premières étapes et s'amplifiant tout au long de l'entraînement. De plus, le moteur de données capture à la fois des signaux d'alignement au niveau du jeu de données et au niveau de l'échantillon, favorisant le raisonnement spatial par rapport aux tâches centrées sur le texte tout en préservant la diversité des données VLM. Nous publierons l'ensemble du code, des données et des modèles pour la recherche future.
English
Vision-Language-Action Models (VLAs) inherit their visual and linguistic capabilities from Vision-Language Models (VLMs), yet most VLAs are built from off-the-shelf VLMs that are not adapted to the embodied domain, limiting their downstream performance. In this work, we propose EmbodiedMidtrain to bridge the gap between VLMs and VLAs. We first characterize the data distribution gap between them, showing that VLA data occupy compact regions that are largely separated from the broader VLM distribution, while the degree of alignment varies substantially both across and within VLM data sources. Then, we build a mid-training data engine that leverages a lightweight learnable proximity estimator to select the most VLA-aligned candidates from a large VLM pool, and mid-trains the VLM on this curated mixture before downstream VLA fine-tuning. Experiments on three robot manipulation benchmarks show that mid-training consistently improves performance across different VLM backbones, achieving results competitive with expert VLAs and off-the-shelf VLMs trained with larger model scale and training budgets. Further analysis reveals that mid-training provides a stronger initialization for VLA fine-tuning, with gains emerging from the earliest steps and widening throughout training. Moreover, the data engine captures both dataset-level and sample-level alignment signals, favoring spatial reasoning over text-centric tasks while preserving the diversity of the VLM data. We will release all code, data and models for future research.