Treine um Classificador Unificado de Qualidade de Dados Multimodais com Dados Sintéticos
Train a Unified Multimodal Data Quality Classifier with Synthetic Data
October 16, 2025
Autores: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são continuamente pré-treinados em uma mistura de dados de legendas de imagem-texto e documentos intercalados, enquanto a filtragem de dados de alta qualidade para documentos intercalados de imagem-texto ainda é pouco explorada. Propomos treinar um MLLM eficiente como um Classificador Unificado de Qualidade de Dados Multimodais para filtrar tanto legendas de imagem-texto quanto dados intercalados de alta qualidade (UniFilter). Para enfrentar o desafio de coletar dados multimodais rotulados e diversos, introduzimos uma abordagem semi-sintética que aproveita imagens brutas prontamente disponíveis e gera textos correspondentes em quatro níveis de qualidade. Esse método permite a criação eficiente de pares amostra-pontuação tanto para dados de legendas quanto para documentos intercalados, a fim de treinar o UniFilter. Aplicamos o UniFilter para selecionar dados de legendas de alta qualidade do conjunto de dados DataComp e dados intercalados do conjunto de dados OBELICS de imagem-texto intercalado. MLLMs pré-treinados com os dados filtrados demonstram capacidades significativamente aprimoradas em comparação com aqueles treinados com dados filtrados de linha de base, alcançando capacidades mais robustas de raciocínio zero-shot e aprendizado em contexto. Após o ajuste fino supervisionado visual, esses MLLMs induzidos pelo UniFilter alcançam desempenho superior em vários benchmarks, destacando os benefícios subsequentes do pré-treinamento multimodal de alta qualidade. Disponibilizamos para a comunidade os dados sintéticos de treinamento usados para treinar o UniFilter, os checkpoints do modelo UniFilter e o subconjunto de documentos intercalados de alta qualidade OBELICS-HQ, selecionado pelo UniFilter, para reprodução e desenvolvimento adicional.
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a
mixture of image-text caption data and interleaved document data, while the
high-quality data filtering towards image-text interleaved document data is
under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal
Data Quality Classifier to Filter both high-quality image-text caption and
interleaved data (UniFilter). To address the challenge of collecting diverse
labeled multimodal data, we introduce a semi-synthetic approach that leverages
readily available raw images and generates corresponding text across four
quality levels. This method enables efficient creation of sample-score pairs
for both caption and interleaved document data to train UniFilter. We apply
UniFilter to curate high-quality caption data from DataComp caption dataset and
interleaved data from the OBELICS image-text interleaved dataset. MLLMs
pre-trained on the filtered data demonstrate significantly enhanced
capabilities compared to those trained on baseline-filtered data, achieving
stronger zero-shot reasoning and in-context learning capabilities. After visual
supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger
performance on various benchmarks, highlighting the downstream benefits of
high-quality multimodal pre-training. We release the synthetic training data
used for training UniFilter, the UniFilter model checkpoints, and the
high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to
the community for reproduction and further development.