EmbodiedMidtrain: Cerrando la Brecha entre Modelos de Visión-Lenguaje y Modelos de Visión-Lenguaje-Acción mediante Entrenamiento Intermedio

Resumen

Los Modelos Visión-Lenguaje-Acción (VLAs) heredan sus capacidades visuales y lingüísticas de los Modelos Visión-Lenguaje (VLMs); sin embargo, la mayoría de los VLAs se construyen a partir de VLMs estándar que no están adaptados al dominio de la robótica embodida, lo que limita su rendimiento en tareas posteriores. En este trabajo, proponemos EmbodiedMidtrain para cerrar la brecha entre los VLMs y los VLAs. Primero caracterizamos la diferencia en la distribución de datos entre ellos, mostrando que los datos de VLA ocupan regiones compactas que están en gran medida separadas de la distribución más amplia de VLM, mientras que el grado de alineación varía sustancialmente tanto entre como dentro de las fuentes de datos de VLM. Luego, construimos un motor de datos para entrenamiento intermedio que aprovecha un estimador de proximidad ligero y entrenable para seleccionar los candidatos más alineados con VLA de un gran conjunto de VLM, y realiza un entrenamiento intermedio del VLM en esta mezcla curada antes del ajuste fino posterior para VLA. Los experimentos en tres benchmarks de manipulación robótica muestran que el entrenamiento intermedio mejora consistentemente el rendimiento en diferentes arquitecturas base de VLM, logrando resultados competitivos con VLAs expertos y VLMs estándar entrenados con mayor escala de modelo y presupuestos de entrenamiento. Un análisis adicional revela que el entrenamiento intermedio proporciona una inicialización más sólida para el ajuste fino de VLA, con ganancias que emergen desde los primeros pasos y se amplían durante el entrenamiento. Además, el motor de datos captura señales de alineación tanto a nivel de conjunto de datos como a nivel de muestra, favoreciendo el razonamiento espacial sobre las tareas centradas en texto mientras preserva la diversidad de los datos de VLM. Liberaremos todo el código, datos y modelos para futuras investigaciones.

English

Vision-Language-Action Models (VLAs) inherit their visual and linguistic capabilities from Vision-Language Models (VLMs), yet most VLAs are built from off-the-shelf VLMs that are not adapted to the embodied domain, limiting their downstream performance. In this work, we propose EmbodiedMidtrain to bridge the gap between VLMs and VLAs. We first characterize the data distribution gap between them, showing that VLA data occupy compact regions that are largely separated from the broader VLM distribution, while the degree of alignment varies substantially both across and within VLM data sources. Then, we build a mid-training data engine that leverages a lightweight learnable proximity estimator to select the most VLA-aligned candidates from a large VLM pool, and mid-trains the VLM on this curated mixture before downstream VLA fine-tuning. Experiments on three robot manipulation benchmarks show that mid-training consistently improves performance across different VLM backbones, achieving results competitive with expert VLAs and off-the-shelf VLMs trained with larger model scale and training budgets. Further analysis reveals that mid-training provides a stronger initialization for VLA fine-tuning, with gains emerging from the earliest steps and widening throughout training. Moreover, the data engine captures both dataset-level and sample-level alignment signals, favoring spatial reasoning over text-centric tasks while preserving the diversity of the VLM data. We will release all code, data and models for future research.

EmbodiedMidtrain: Cerrando la Brecha entre Modelos de Visión-Lenguaje y Modelos de Visión-Lenguaje-Acción mediante Entrenamiento Intermedio

EmbodiedMidtrain: Bridging the Gap between Vision-Language Models and Vision-Language-Action Models via Mid-training

Resumen

Support