Entrena un Clasificador Unificado de Calidad de Datos Multimodales con Datos Sintéticos

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) se preentrenan continuamente con una mezcla de datos de subtítulos de imágenes-texto y documentos intercalados, mientras que el filtrado de datos de alta calidad hacia documentos intercalados de imágenes-texto está poco explorado. Proponemos entrenar un MLLM eficiente como Clasificador Unificado de Calidad de Datos Multimodales para filtrar tanto subtítulos de imágenes-texto como datos intercalados de alta calidad (UniFilter). Para abordar el desafío de recopilar datos multimodales etiquetados diversos, introducimos un enfoque semi-sintético que aprovecha imágenes en bruto fácilmente disponibles y genera texto correspondiente en cuatro niveles de calidad. Este método permite la creación eficiente de pares muestra-puntuación tanto para datos de subtítulos como para documentos intercalados, con el fin de entrenar UniFilter. Aplicamos UniFilter para seleccionar datos de subtítulos de alta calidad del conjunto de datos DataComp y datos intercalados del conjunto de datos OBELICS de imágenes-texto intercaladas. Los MLLMs preentrenados con los datos filtrados demuestran capacidades significativamente mejoradas en comparación con aquellos entrenados con datos filtrados de referencia, logrando un razonamiento de cero-shot y capacidades de aprendizaje en contexto más sólidas. Después de un ajuste fino supervisado visual, estos MLLMs inducidos por UniFilter alcanzan un rendimiento superior en varios puntos de referencia, destacando los beneficios posteriores de un preentrenamiento multimodal de alta calidad. Publicamos los datos sintéticos de entrenamiento utilizados para entrenar UniFilter, los puntos de control del modelo UniFilter y el subconjunto de documentos intercalados de alta calidad OBELICS-HQ, seleccionado por UniFilter, para la comunidad con el fin de su reproducción y desarrollo adicional.

English

The Multimodal Large Language Models (MLLMs) are continually pre-trained on a mixture of image-text caption data and interleaved document data, while the high-quality data filtering towards image-text interleaved document data is under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal Data Quality Classifier to Filter both high-quality image-text caption and interleaved data (UniFilter). To address the challenge of collecting diverse labeled multimodal data, we introduce a semi-synthetic approach that leverages readily available raw images and generates corresponding text across four quality levels. This method enables efficient creation of sample-score pairs for both caption and interleaved document data to train UniFilter. We apply UniFilter to curate high-quality caption data from DataComp caption dataset and interleaved data from the OBELICS image-text interleaved dataset. MLLMs pre-trained on the filtered data demonstrate significantly enhanced capabilities compared to those trained on baseline-filtered data, achieving stronger zero-shot reasoning and in-context learning capabilities. After visual supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger performance on various benchmarks, highlighting the downstream benefits of high-quality multimodal pre-training. We release the synthetic training data used for training UniFilter, the UniFilter model checkpoints, and the high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to the community for reproduction and further development.

Entrena un Clasificador Unificado de Calidad de Datos Multimodales con Datos Sintéticos

Train a Unified Multimodal Data Quality Classifier with Synthetic Data

Resumen

Support