EmbodiedMidtrain: 中間訓練による視覚言語モデルと視覚言語行動モデルのギャップの架け橋
EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training
April 21, 2026
著者: Yiyang Du, Zhanqiu Guo, Xin Ye, Liu Ren, Chenyan Xiong
cs.AI
要旨
視覚言語行動モデル(VLA)は視覚言語モデル(VLM)から視覚・言語能力を継承するが、既存のVLAの多くは具身化領域に適応していない既製のVLMを基盤としており、下流タスクの性能が制限されている。本研究では、VLMとVLAの間の隔たりを埋めるEmbodiedMidtrainを提案する。まず両者のデータ分布の隔たりを特徴付け、VLAデータがVLM分布全体から大きく隔離されたコンパクトな領域を占め、VLMデータソース間およびデータソース内で整合性の度合いが大幅に異なることを示す。次に、軽量な学習可能な近接度推定器を活用し、大規模なVLMプールからVLAに最も整合した候補を選択する中間訓練データエンジンを構築する。この精選された混合データでVLMを中間訓練した後、下流のVLAファインチューニングを実施する。3つのロボット把持ベンチマークによる実験では、中間訓練が異なるVLMバックボーンで一貫して性能を向上させ、大規模モデル・高訓練コストの専門VLAや既製VLMと同等の結果を得た。詳細分析により、中間訓練がVLAファインチューニングにより強固な初期化を提供し、訓練初期段階から効果が発現し訓練を通じて拡大することが明らかになった。さらにデータエンジンはデータセットレベルとサンプルレベルの両方の整合信号を捕捉し、テキスト中心タスクより空間推論を重視しながらVLMデータの多様性を保持する。今後の研究のため、全コード・データ・モデルを公開予定である。
English
Vision-Language-Action Models (VLAs) inherit their visual and linguistic capabilities from Vision-Language Models (VLMs), yet most VLAs are built from off-the-shelf VLMs that are not adapted to the embodied domain, limiting their downstream performance. In this work, we propose EmbodiedMidtrain to bridge the gap between VLMs and VLAs. We first characterize the data distribution gap between them, showing that VLA data occupy compact regions that are largely separated from the broader VLM distribution, while the degree of alignment varies substantially both across and within VLM data sources. Then, we build a mid-training data engine that leverages a lightweight learnable proximity estimator to select the most VLA-aligned candidates from a large VLM pool, and mid-trains the VLM on this curated mixture before downstream VLA fine-tuning. Experiments on three robot manipulation benchmarks show that mid-training consistently improves performance across different VLM backbones, achieving results competitive with expert VLAs and off-the-shelf VLMs trained with larger model scale and training budgets. Further analysis reveals that mid-training provides a stronger initialization for VLA fine-tuning, with gains emerging from the earliest steps and widening throughout training. Moreover, the data engine captures both dataset-level and sample-level alignment signals, favoring spatial reasoning over text-centric tasks while preserving the diversity of the VLM data. We will release all code, data and models for future research.