Entrena un Clasificador Unificado de Calidad de Datos Multimodales con Datos Sintéticos
Train a Unified Multimodal Data Quality Classifier with Synthetic Data
October 16, 2025
Autores: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) se preentrenan continuamente con una mezcla de datos de subtítulos de imágenes-texto y documentos intercalados, mientras que el filtrado de datos de alta calidad hacia documentos intercalados de imágenes-texto está poco explorado. Proponemos entrenar un MLLM eficiente como Clasificador Unificado de Calidad de Datos Multimodales para filtrar tanto subtítulos de imágenes-texto como datos intercalados de alta calidad (UniFilter). Para abordar el desafío de recopilar datos multimodales etiquetados diversos, introducimos un enfoque semi-sintético que aprovecha imágenes en bruto fácilmente disponibles y genera texto correspondiente en cuatro niveles de calidad. Este método permite la creación eficiente de pares muestra-puntuación tanto para datos de subtítulos como para documentos intercalados, con el fin de entrenar UniFilter. Aplicamos UniFilter para seleccionar datos de subtítulos de alta calidad del conjunto de datos DataComp y datos intercalados del conjunto de datos OBELICS de imágenes-texto intercaladas. Los MLLMs preentrenados con los datos filtrados demuestran capacidades significativamente mejoradas en comparación con aquellos entrenados con datos filtrados de referencia, logrando un razonamiento de cero-shot y capacidades de aprendizaje en contexto más sólidas. Después de un ajuste fino supervisado visual, estos MLLMs inducidos por UniFilter alcanzan un rendimiento superior en varios puntos de referencia, destacando los beneficios posteriores de un preentrenamiento multimodal de alta calidad. Publicamos los datos sintéticos de entrenamiento utilizados para entrenar UniFilter, los puntos de control del modelo UniFilter y el subconjunto de documentos intercalados de alta calidad OBELICS-HQ, seleccionado por UniFilter, para la comunidad con el fin de su reproducción y desarrollo adicional.
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a
mixture of image-text caption data and interleaved document data, while the
high-quality data filtering towards image-text interleaved document data is
under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal
Data Quality Classifier to Filter both high-quality image-text caption and
interleaved data (UniFilter). To address the challenge of collecting diverse
labeled multimodal data, we introduce a semi-synthetic approach that leverages
readily available raw images and generates corresponding text across four
quality levels. This method enables efficient creation of sample-score pairs
for both caption and interleaved document data to train UniFilter. We apply
UniFilter to curate high-quality caption data from DataComp caption dataset and
interleaved data from the OBELICS image-text interleaved dataset. MLLMs
pre-trained on the filtered data demonstrate significantly enhanced
capabilities compared to those trained on baseline-filtered data, achieving
stronger zero-shot reasoning and in-context learning capabilities. After visual
supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger
performance on various benchmarks, highlighting the downstream benefits of
high-quality multimodal pre-training. We release the synthetic training data
used for training UniFilter, the UniFilter model checkpoints, and the
high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to
the community for reproduction and further development.