ChatPaper.aiChatPaper

Treine um Classificador Unificado de Qualidade de Dados Multimodais com Dados Sintéticos

Train a Unified Multimodal Data Quality Classifier with Synthetic Data

October 16, 2025
Autores: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são continuamente pré-treinados em uma mistura de dados de legendas de imagem-texto e documentos intercalados, enquanto a filtragem de dados de alta qualidade para documentos intercalados de imagem-texto ainda é pouco explorada. Propomos treinar um MLLM eficiente como um Classificador Unificado de Qualidade de Dados Multimodais para filtrar tanto legendas de imagem-texto quanto dados intercalados de alta qualidade (UniFilter). Para enfrentar o desafio de coletar dados multimodais rotulados e diversos, introduzimos uma abordagem semi-sintética que aproveita imagens brutas prontamente disponíveis e gera textos correspondentes em quatro níveis de qualidade. Esse método permite a criação eficiente de pares amostra-pontuação tanto para dados de legendas quanto para documentos intercalados, a fim de treinar o UniFilter. Aplicamos o UniFilter para selecionar dados de legendas de alta qualidade do conjunto de dados DataComp e dados intercalados do conjunto de dados OBELICS de imagem-texto intercalado. MLLMs pré-treinados com os dados filtrados demonstram capacidades significativamente aprimoradas em comparação com aqueles treinados com dados filtrados de linha de base, alcançando capacidades mais robustas de raciocínio zero-shot e aprendizado em contexto. Após o ajuste fino supervisionado visual, esses MLLMs induzidos pelo UniFilter alcançam desempenho superior em vários benchmarks, destacando os benefícios subsequentes do pré-treinamento multimodal de alta qualidade. Disponibilizamos para a comunidade os dados sintéticos de treinamento usados para treinar o UniFilter, os checkpoints do modelo UniFilter e o subconjunto de documentos intercalados de alta qualidade OBELICS-HQ, selecionado pelo UniFilter, para reprodução e desenvolvimento adicional.
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a mixture of image-text caption data and interleaved document data, while the high-quality data filtering towards image-text interleaved document data is under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal Data Quality Classifier to Filter both high-quality image-text caption and interleaved data (UniFilter). To address the challenge of collecting diverse labeled multimodal data, we introduce a semi-synthetic approach that leverages readily available raw images and generates corresponding text across four quality levels. This method enables efficient creation of sample-score pairs for both caption and interleaved document data to train UniFilter. We apply UniFilter to curate high-quality caption data from DataComp caption dataset and interleaved data from the OBELICS image-text interleaved dataset. MLLMs pre-trained on the filtered data demonstrate significantly enhanced capabilities compared to those trained on baseline-filtered data, achieving stronger zero-shot reasoning and in-context learning capabilities. After visual supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger performance on various benchmarks, highlighting the downstream benefits of high-quality multimodal pre-training. We release the synthetic training data used for training UniFilter, the UniFilter model checkpoints, and the high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to the community for reproduction and further development.
PDF22October 20, 2025