Addestra un Classificatore Unificato di Qualità dei Dati Multimodali con Dati Sintetici
Train a Unified Multimodal Data Quality Classifier with Synthetic Data
October 16, 2025
Autori: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) vengono continuamente pre-addestrati su una miscela di dati di didascalie immagine-testo e dati documentali intervallati, mentre il filtraggio di dati di alta qualità verso documenti intervallati immagine-testo è ancora poco esplorato. Proponiamo di addestrare un MLLM efficiente come Classificatore Unificato della Qualità dei Dati Multimodali per filtrare sia didascalie immagine-testo di alta qualità che dati intervallati (UniFilter). Per affrontare la sfida di raccogliere dati multimodali etichettati e diversificati, introduciamo un approccio semi-sintetico che sfrutta immagini grezze facilmente disponibili e genera testi corrispondenti su quattro livelli di qualità. Questo metodo consente la creazione efficiente di coppie campione-punteggio sia per i dati di didascalie che per i documenti intervallati, al fine di addestrare UniFilter. Applichiamo UniFilter per selezionare dati di didascalie di alta qualità dal dataset DataComp e dati intervallati dal dataset OBELICS di documenti intervallati immagine-testo. Gli MLLMs pre-addestrati sui dati filtrati dimostrano capacità significativamente migliorate rispetto a quelli addestrati su dati filtrati con metodi di base, raggiungendo migliori capacità di ragionamento zero-shot e apprendimento in contesto. Dopo un affinamento supervisionato visivo, questi MLLMs indotti da UniFilter raggiungono prestazioni più forti su vari benchmark, evidenziando i benefici a valle di un pre-addestramento multimodale di alta qualità. Rilasciamo alla comunità i dati sintetici di addestramento utilizzati per addestrare UniFilter, i checkpoint del modello UniFilter e il sottoinsieme di documenti intervallati di alta qualità OBELICS-HQ, curato da UniFilter, per la riproduzione e ulteriori sviluppi.
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a
mixture of image-text caption data and interleaved document data, while the
high-quality data filtering towards image-text interleaved document data is
under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal
Data Quality Classifier to Filter both high-quality image-text caption and
interleaved data (UniFilter). To address the challenge of collecting diverse
labeled multimodal data, we introduce a semi-synthetic approach that leverages
readily available raw images and generates corresponding text across four
quality levels. This method enables efficient creation of sample-score pairs
for both caption and interleaved document data to train UniFilter. We apply
UniFilter to curate high-quality caption data from DataComp caption dataset and
interleaved data from the OBELICS image-text interleaved dataset. MLLMs
pre-trained on the filtered data demonstrate significantly enhanced
capabilities compared to those trained on baseline-filtered data, achieving
stronger zero-shot reasoning and in-context learning capabilities. After visual
supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger
performance on various benchmarks, highlighting the downstream benefits of
high-quality multimodal pre-training. We release the synthetic training data
used for training UniFilter, the UniFilter model checkpoints, and the
high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to
the community for reproduction and further development.