EmbodiedMidtrain: Преодоление разрыва между моделями «визуальный язык» и моделями «визуальный язык-действие» с помощью промежуточного обучения

Аннотация

Модели «зрение-язык-действие» (VLA) наследуют свои визуальные и лингвистические способности от моделей «зрение-язык» (VLM), однако большинство VLA строятся на базе готовых VLM, не адаптированных к воплощенной среде, что ограничивает их итоговую производительность. В данной работе мы предлагаем метод EmbodiedMidtrain для преодоления разрыва между VLM и VLA. Сначала мы характеризуем различие в распределении данных между ними, показывая, что данные VLA занимают компактные области, в значительной степени отделенные от более широкого распределения VLM, причем степень согласованности существенно варьируется как между различными источниками данных VLM, так и внутри них. Затем мы создаем механизм отбора данных для промежуточного обучения, который использует легковесный обучаемый оценщик близости для выбора наиболее согласованных с VLA кандидатов из большого пула VLM, и проводим промежуточное обучение VLM на этой отобранной смеси данных перед тонкой настройкой для решения целевых задач VLA. Эксперименты на трех наборах данных по роботизированному манипулированию показывают, что промежуточное обучение стабильно улучшает производительность на различных базовых архитектурах VLM, достигая результатов, сопоставимых со специализированными VLA и готовыми VLM, обученными с большим масштабом модели и объемом вычислительных ресурсов. Дальнейший анализ показывает, что промежуточное обучение обеспечивает более сильную инициализацию для тонкой настройки VLA, причем преимущество проявляется с самых ранних шагов и усиливается в процессе обучения. Более того, механизм отбора данных учитывает как сигналы согласованности на уровне набора данных, так и на уровне отдельных примеров, отдавая предпочтение пространственным рассуждениям перед тексто-ориентированными задачами, сохраняя при этом разнообразие данных VLM. Мы опубликуем весь код, данные и модели для дальнейших исследований.

English

Vision-Language-Action Models (VLAs) inherit their visual and linguistic capabilities from Vision-Language Models (VLMs), yet most VLAs are built from off-the-shelf VLMs that are not adapted to the embodied domain, limiting their downstream performance. In this work, we propose EmbodiedMidtrain to bridge the gap between VLMs and VLAs. We first characterize the data distribution gap between them, showing that VLA data occupy compact regions that are largely separated from the broader VLM distribution, while the degree of alignment varies substantially both across and within VLM data sources. Then, we build a mid-training data engine that leverages a lightweight learnable proximity estimator to select the most VLA-aligned candidates from a large VLM pool, and mid-trains the VLM on this curated mixture before downstream VLA fine-tuning. Experiments on three robot manipulation benchmarks show that mid-training consistently improves performance across different VLM backbones, achieving results competitive with expert VLAs and off-the-shelf VLMs trained with larger model scale and training budgets. Further analysis reveals that mid-training provides a stronger initialization for VLA fine-tuning, with gains emerging from the earliest steps and widening throughout training. Moreover, the data engine captures both dataset-level and sample-level alignment signals, favoring spatial reasoning over text-centric tasks while preserving the diversity of the VLM data. We will release all code, data and models for future research.

EmbodiedMidtrain: Преодоление разрыва между моделями «визуальный язык» и моделями «визуальный язык-действие» с помощью промежуточного обучения

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

Аннотация

Support