Treine um Classificador Unificado de Qualidade de Dados Multimodais com Dados Sintéticos

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são continuamente pré-treinados em uma mistura de dados de legendas de imagem-texto e documentos intercalados, enquanto a filtragem de dados de alta qualidade para documentos intercalados de imagem-texto ainda é pouco explorada. Propomos treinar um MLLM eficiente como um Classificador Unificado de Qualidade de Dados Multimodais para filtrar tanto legendas de imagem-texto quanto dados intercalados de alta qualidade (UniFilter). Para enfrentar o desafio de coletar dados multimodais rotulados e diversos, introduzimos uma abordagem semi-sintética que aproveita imagens brutas prontamente disponíveis e gera textos correspondentes em quatro níveis de qualidade. Esse método permite a criação eficiente de pares amostra-pontuação tanto para dados de legendas quanto para documentos intercalados, a fim de treinar o UniFilter. Aplicamos o UniFilter para selecionar dados de legendas de alta qualidade do conjunto de dados DataComp e dados intercalados do conjunto de dados OBELICS de imagem-texto intercalado. MLLMs pré-treinados com os dados filtrados demonstram capacidades significativamente aprimoradas em comparação com aqueles treinados com dados filtrados de linha de base, alcançando capacidades mais robustas de raciocínio zero-shot e aprendizado em contexto. Após o ajuste fino supervisionado visual, esses MLLMs induzidos pelo UniFilter alcançam desempenho superior em vários benchmarks, destacando os benefícios subsequentes do pré-treinamento multimodal de alta qualidade. Disponibilizamos para a comunidade os dados sintéticos de treinamento usados para treinar o UniFilter, os checkpoints do modelo UniFilter e o subconjunto de documentos intercalados de alta qualidade OBELICS-HQ, selecionado pelo UniFilter, para reprodução e desenvolvimento adicional.

English

The Multimodal Large Language Models (MLLMs) are continually pre-trained on a mixture of image-text caption data and interleaved document data, while the high-quality data filtering towards image-text interleaved document data is under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal Data Quality Classifier to Filter both high-quality image-text caption and interleaved data (UniFilter). To address the challenge of collecting diverse labeled multimodal data, we introduce a semi-synthetic approach that leverages readily available raw images and generates corresponding text across four quality levels. This method enables efficient creation of sample-score pairs for both caption and interleaved document data to train UniFilter. We apply UniFilter to curate high-quality caption data from DataComp caption dataset and interleaved data from the OBELICS image-text interleaved dataset. MLLMs pre-trained on the filtered data demonstrate significantly enhanced capabilities compared to those trained on baseline-filtered data, achieving stronger zero-shot reasoning and in-context learning capabilities. After visual supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger performance on various benchmarks, highlighting the downstream benefits of high-quality multimodal pre-training. We release the synthetic training data used for training UniFilter, the UniFilter model checkpoints, and the high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to the community for reproduction and further development.

Treine um Classificador Unificado de Qualidade de Dados Multimodais com Dados Sintéticos

Train a Unified Multimodal Data Quality Classifier with Synthetic Data

Resumo

Support