¿Deberían los Modelos de Lenguaje Visual (VLMs) ser Pre-entrenados con Datos de Imagen?
Should VLMs be Pre-trained with Image Data?
March 10, 2025
Autores: Sedrick Keh, Jean Mercat, Samir Yitzhak Gadre, Kushal Arora, Igor Vasiljevic, Benjamin Burchfiel, Shuran Song, Russ Tedrake, Thomas Kollar, Ludwig Schmidt, Achal Dave
cs.AI
Resumen
Los LLM preentrenados que se entrenan adicionalmente con datos de imágenes obtienen buenos resultados en tareas de visión y lenguaje. Si bien la incorporación de imágenes durante una segunda fase de entrenamiento desbloquea eficazmente esta capacidad, no está claro cuánta ganancia o pérdida aporta este enfoque de dos pasos en comparación con los VLM que integran las imágenes antes en el proceso de entrenamiento. Para investigar esto, entrenamos modelos que abarcan diversos conjuntos de datos, escalas, proporciones de imagen-texto y cantidades de preentrenamiento realizadas antes de introducir tokens visuales. Luego, ajustamos estos modelos y evaluamos su rendimiento en tareas posteriores, tanto de visión y lenguaje como de solo texto. Descubrimos que el preentrenamiento con una mezcla de datos de imagen y texto permite que los modelos obtengan mejores resultados en tareas de visión y lenguaje, manteniendo al mismo tiempo un rendimiento sólido en evaluaciones de solo texto. En un promedio de 6 tareas diversas, encontramos que, para un modelo de 1B, introducir tokens visuales al 80% del preentrenamiento resulta en una mejora promedio del 2% en comparación con introducir tokens visuales en un modelo completamente preentrenado.
English
Pre-trained LLMs that are further trained with image data perform well on
vision-language tasks. While adding images during a second training phase
effectively unlocks this capability, it is unclear how much of a gain or loss
this two-step pipeline gives over VLMs which integrate images earlier into the
training process. To investigate this, we train models spanning various
datasets, scales, image-text ratios, and amount of pre-training done before
introducing vision tokens. We then fine-tune these models and evaluate their
downstream performance on a suite of vision-language and text-only tasks. We
find that pre-training with a mixture of image and text data allows models to
perform better on vision-language tasks while maintaining strong performance on
text-only evaluations. On an average of 6 diverse tasks, we find that for a 1B
model, introducing visual tokens 80% of the way through pre-training results in
a 2% average improvement over introducing visual tokens to a fully pre-trained
model.Summary
AI-Generated Summary