ChatPaper.aiChatPaper

Train een geünificeerde multimodale kwaliteitsclassificator voor gegevens met synthetische data.

Train a Unified Multimodal Data Quality Classifier with Synthetic Data

October 16, 2025
Auteurs: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI

Samenvatting

De Multimodale Grote Taalmodellen (MLLMs) worden voortdurend voorgetraind op een mix van beeld-tekst bijschriftdata en interleaved documentdata, terwijl het filteren van hoogwaardige data gericht op beeld-tekst interleaved documentdata nog onvoldoende is onderzocht. Wij stellen voor om een efficiënt MLLM te trainen als een Unified Multimodal Data Quality Classifier om zowel hoogwaardige beeld-tekst bijschriften als interleaved data te filteren (UniFilter). Om de uitdaging van het verzamelen van diverse gelabelde multimodale data aan te pakken, introduceren we een semi-synthetische aanpak die gebruikmaakt van gemakkelijk beschikbare ruwe beelden en corresponderende tekst genereert over vier kwaliteitsniveaus. Deze methode maakt het mogelijk om efficiënt sample-score paren te creëren voor zowel bijschrift- als interleaved documentdata om UniFilter te trainen. We passen UniFilter toe om hoogwaardige bijschriftdata te selecteren uit het DataComp bijschriftdataset en interleaved data uit het OBELICS beeld-tekst interleaved dataset. MLLMs die voorgetraind zijn op de gefilterde data tonen aanzienlijk verbeterde capaciteiten in vergelijking met die getraind op baseline-gefilterde data, waarbij ze sterkere zero-shot redeneer- en in-context leercapaciteiten bereiken. Na visueel begeleide fine-tuning behalen deze door UniFilter geïnduceerde MLLMs betere prestaties op verschillende benchmarks, wat de downstream voordelen van hoogwaardige multimodale voorpretraining benadrukt. We stellen de synthetische trainingsdata die gebruikt zijn voor het trainen van UniFilter, de UniFilter modelcheckpoints, en de hoogwaardige interleaved document subset OBELICS-HQ, gecureerd door UniFilter, beschikbaar aan de gemeenschap voor reproductie en verdere ontwikkeling.
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a mixture of image-text caption data and interleaved document data, while the high-quality data filtering towards image-text interleaved document data is under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal Data Quality Classifier to Filter both high-quality image-text caption and interleaved data (UniFilter). To address the challenge of collecting diverse labeled multimodal data, we introduce a semi-synthetic approach that leverages readily available raw images and generates corresponding text across four quality levels. This method enables efficient creation of sample-score pairs for both caption and interleaved document data to train UniFilter. We apply UniFilter to curate high-quality caption data from DataComp caption dataset and interleaved data from the OBELICS image-text interleaved dataset. MLLMs pre-trained on the filtered data demonstrate significantly enhanced capabilities compared to those trained on baseline-filtered data, achieving stronger zero-shot reasoning and in-context learning capabilities. After visual supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger performance on various benchmarks, highlighting the downstream benefits of high-quality multimodal pre-training. We release the synthetic training data used for training UniFilter, the UniFilter model checkpoints, and the high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to the community for reproduction and further development.
PDF22October 20, 2025