Entraînez un classificateur unifié de qualité des données multimodales avec des données synthétiques
Train a Unified Multimodal Data Quality Classifier with Synthetic Data
October 16, 2025
papers.authors: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) sont continuellement pré-entraînés sur un mélange de données de légendes image-texte et de documents entrelacés, tandis que le filtrage de données de haute qualité pour les documents entrelacés image-texte reste peu exploré. Nous proposons d'entraîner un MLLM efficace en tant que classificateur unifié de qualité des données multimodales pour filtrer à la fois les légendes image-texte et les données entrelacées de haute qualité (UniFilter). Pour relever le défi de collecter des données multimodales étiquetées diversifiées, nous introduisons une approche semi-synthétique qui exploite des images brutes facilement disponibles et génère du texte correspondant à travers quatre niveaux de qualité. Cette méthode permet de créer efficacement des paires échantillon-score pour les données de légendes et les documents entrelacés afin d'entraîner UniFilter. Nous appliquons UniFilter pour sélectionner des données de légendes de haute qualité à partir du jeu de données DataComp et des données entrelacées à partir du jeu de données OBELICS image-texte entrelacé. Les MLLMs pré-entraînés sur les données filtrées démontrent des capacités significativement améliorées par rapport à ceux entraînés sur des données filtrées de base, atteignant de meilleures capacités de raisonnement en zero-shot et d'apprentissage en contexte. Après un affinage supervisé visuel, ces MLLMs induits par UniFilter obtiennent de meilleures performances sur divers benchmarks, mettant en évidence les avantages en aval d'un pré-entraînement multimodal de haute qualité. Nous mettons à disposition de la communauté les données synthétiques d'entraînement utilisées pour entraîner UniFilter, les points de contrôle du modèle UniFilter, et le sous-ensemble de documents entrelacés de haute qualité OBELICS-HQ, sélectionné par UniFilter, pour la reproduction et le développement ultérieur.
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a
mixture of image-text caption data and interleaved document data, while the
high-quality data filtering towards image-text interleaved document data is
under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal
Data Quality Classifier to Filter both high-quality image-text caption and
interleaved data (UniFilter). To address the challenge of collecting diverse
labeled multimodal data, we introduce a semi-synthetic approach that leverages
readily available raw images and generates corresponding text across four
quality levels. This method enables efficient creation of sample-score pairs
for both caption and interleaved document data to train UniFilter. We apply
UniFilter to curate high-quality caption data from DataComp caption dataset and
interleaved data from the OBELICS image-text interleaved dataset. MLLMs
pre-trained on the filtered data demonstrate significantly enhanced
capabilities compared to those trained on baseline-filtered data, achieving
stronger zero-shot reasoning and in-context learning capabilities. After visual
supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger
performance on various benchmarks, highlighting the downstream benefits of
high-quality multimodal pre-training. We release the synthetic training data
used for training UniFilter, the UniFilter model checkpoints, and the
high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to
the community for reproduction and further development.