Train een geünificeerde multimodale kwaliteitsclassificator voor gegevens met synthetische data.
Train a Unified Multimodal Data Quality Classifier with Synthetic Data
October 16, 2025
Auteurs: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI
Samenvatting
De Multimodale Grote Taalmodellen (MLLMs) worden voortdurend voorgetraind op een mix van beeld-tekst bijschriftdata en interleaved documentdata, terwijl het filteren van hoogwaardige data gericht op beeld-tekst interleaved documentdata nog onvoldoende is onderzocht. Wij stellen voor om een efficiënt MLLM te trainen als een Unified Multimodal Data Quality Classifier om zowel hoogwaardige beeld-tekst bijschriften als interleaved data te filteren (UniFilter). Om de uitdaging van het verzamelen van diverse gelabelde multimodale data aan te pakken, introduceren we een semi-synthetische aanpak die gebruikmaakt van gemakkelijk beschikbare ruwe beelden en corresponderende tekst genereert over vier kwaliteitsniveaus. Deze methode maakt het mogelijk om efficiënt sample-score paren te creëren voor zowel bijschrift- als interleaved documentdata om UniFilter te trainen. We passen UniFilter toe om hoogwaardige bijschriftdata te selecteren uit het DataComp bijschriftdataset en interleaved data uit het OBELICS beeld-tekst interleaved dataset. MLLMs die voorgetraind zijn op de gefilterde data tonen aanzienlijk verbeterde capaciteiten in vergelijking met die getraind op baseline-gefilterde data, waarbij ze sterkere zero-shot redeneer- en in-context leercapaciteiten bereiken. Na visueel begeleide fine-tuning behalen deze door UniFilter geïnduceerde MLLMs betere prestaties op verschillende benchmarks, wat de downstream voordelen van hoogwaardige multimodale voorpretraining benadrukt. We stellen de synthetische trainingsdata die gebruikt zijn voor het trainen van UniFilter, de UniFilter modelcheckpoints, en de hoogwaardige interleaved document subset OBELICS-HQ, gecureerd door UniFilter, beschikbaar aan de gemeenschap voor reproductie en verdere ontwikkeling.
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a
mixture of image-text caption data and interleaved document data, while the
high-quality data filtering towards image-text interleaved document data is
under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal
Data Quality Classifier to Filter both high-quality image-text caption and
interleaved data (UniFilter). To address the challenge of collecting diverse
labeled multimodal data, we introduce a semi-synthetic approach that leverages
readily available raw images and generates corresponding text across four
quality levels. This method enables efficient creation of sample-score pairs
for both caption and interleaved document data to train UniFilter. We apply
UniFilter to curate high-quality caption data from DataComp caption dataset and
interleaved data from the OBELICS image-text interleaved dataset. MLLMs
pre-trained on the filtered data demonstrate significantly enhanced
capabilities compared to those trained on baseline-filtered data, achieving
stronger zero-shot reasoning and in-context learning capabilities. After visual
supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger
performance on various benchmarks, highlighting the downstream benefits of
high-quality multimodal pre-training. We release the synthetic training data
used for training UniFilter, the UniFilter model checkpoints, and the
high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to
the community for reproduction and further development.