Trainieren Sie einen einheitlichen multimodalen Datenqualitätsklassifikator mit synthetischen Daten.
Train a Unified Multimodal Data Quality Classifier with Synthetic Data
October 16, 2025
papers.authors: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI
papers.abstract
Die Multimodalen Großen Sprachmodelle (MLLMs) werden kontinuierlich auf einer Mischung aus Bild-Text-Beschreibungsdaten und verschachtelten Dokumentdaten vortrainiert, während die hochwertige Datenfilterung für verschachtelte Bild-Text-Dokumentdaten bisher wenig erforscht ist. Wir schlagen vor, ein effizientes MLLM als Unified Multimodal Data Quality Classifier zu trainieren, um sowohl hochwertige Bild-Text-Beschreibungen als auch verschachtelte Daten zu filtern (UniFilter). Um die Herausforderung der Sammlung vielfältiger, annotierter multimodaler Daten zu bewältigen, führen wir einen semi-synthetischen Ansatz ein, der leicht verfügbare Rohbilder nutzt und entsprechenden Text über vier Qualitätsstufen generiert. Diese Methode ermöglicht die effiziente Erstellung von Beispiel-Bewertungs-Paaren sowohl für Beschreibungs- als auch für verschachtelte Dokumentdaten, um UniFilter zu trainieren. Wir wenden UniFilter an, um hochwertige Beschreibungsdaten aus dem DataComp-Beschreibungsdatensatz und verschachtelte Daten aus dem OBELICS-Bild-Text-verschachtelten Datensatz zu kuratieren. MLLMs, die auf den gefilterten Daten vortrainiert wurden, zeigen deutlich verbesserte Fähigkeiten im Vergleich zu denen, die auf basisgefilterten Daten trainiert wurden, und erreichen stärkere Zero-Shot-Reasoning- und In-Context-Learning-Fähigkeiten. Nach visuell überwachtem Feinabstimmen erzielen diese durch UniFilter induzierten MLLMs eine bessere Leistung in verschiedenen Benchmarks, was die nachgelagerten Vorteile eines hochwertigen multimodalen Vortrainings unterstreicht. Wir stellen die synthetischen Trainingsdaten, die zur Schulung von UniFilter verwendet wurden, die UniFilter-Modellcheckpoints und den hochwertigen verschachtelten Dokumentunterdatensatz OBELICS-HQ, der von UniFilter kuratiert wurde, der Gemeinschaft zur Reproduktion und Weiterentwicklung zur Verfügung.
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a
mixture of image-text caption data and interleaved document data, while the
high-quality data filtering towards image-text interleaved document data is
under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal
Data Quality Classifier to Filter both high-quality image-text caption and
interleaved data (UniFilter). To address the challenge of collecting diverse
labeled multimodal data, we introduce a semi-synthetic approach that leverages
readily available raw images and generates corresponding text across four
quality levels. This method enables efficient creation of sample-score pairs
for both caption and interleaved document data to train UniFilter. We apply
UniFilter to curate high-quality caption data from DataComp caption dataset and
interleaved data from the OBELICS image-text interleaved dataset. MLLMs
pre-trained on the filtered data demonstrate significantly enhanced
capabilities compared to those trained on baseline-filtered data, achieving
stronger zero-shot reasoning and in-context learning capabilities. After visual
supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger
performance on various benchmarks, highlighting the downstream benefits of
high-quality multimodal pre-training. We release the synthetic training data
used for training UniFilter, the UniFilter model checkpoints, and the
high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to
the community for reproduction and further development.