合成データを用いた統合型マルチモーダルデータ品質分類器の訓練
Train a Unified Multimodal Data Quality Classifier with Synthetic Data
October 16, 2025
著者: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLMs)は、画像テキストキャプションデータとインタリーブドキュメントデータの混合データセットで継続的に事前学習が行われているが、画像テキストインタリーブドキュメントデータに対する高品質なデータフィルタリングは十分に検討されていない。本研究では、高品質な画像テキストキャプションおよびインタリーブデータをフィルタリングするための効率的なMLLMを、統一マルチモーダルデータ品質分類器(UniFilter)として訓練することを提案する。多様なラベル付きマルチモーダルデータを収集する課題に対処するため、容易に利用可能な生画像を活用し、4つの品質レベルに対応するテキストを生成する半合成アプローチを導入する。この方法により、キャプションおよびインタリーブドキュメントデータのサンプル-スコアペアを効率的に作成し、UniFilterを訓練する。UniFilterを適用して、DataCompキャプションデータセットから高品質なキャプションデータを、またOBELICS画像テキストインタリーブデータセットから高品質なインタリーブデータを選別する。フィルタリングされたデータで事前学習されたMLLMsは、ベースラインフィルタリングされたデータで訓練されたモデルと比較して、ゼロショット推論およびインコンテキスト学習能力が大幅に向上する。視覚的教師ありファインチューニング後、これらのUniFilter誘導MLLMsは、さまざまなベンチマークでより高い性能を達成し、高品質なマルチモーダル事前学習の下流効果を強調する。本研究では、UniFilterの訓練に使用された合成訓練データ、UniFilterモデルのチェックポイント、およびUniFilterによって選別された高品質なインタリーブドキュメントサブセットOBELICS-HQをコミュニティに公開し、再現性とさらなる発展を促進する。
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a
mixture of image-text caption data and interleaved document data, while the
high-quality data filtering towards image-text interleaved document data is
under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal
Data Quality Classifier to Filter both high-quality image-text caption and
interleaved data (UniFilter). To address the challenge of collecting diverse
labeled multimodal data, we introduce a semi-synthetic approach that leverages
readily available raw images and generates corresponding text across four
quality levels. This method enables efficient creation of sample-score pairs
for both caption and interleaved document data to train UniFilter. We apply
UniFilter to curate high-quality caption data from DataComp caption dataset and
interleaved data from the OBELICS image-text interleaved dataset. MLLMs
pre-trained on the filtered data demonstrate significantly enhanced
capabilities compared to those trained on baseline-filtered data, achieving
stronger zero-shot reasoning and in-context learning capabilities. After visual
supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger
performance on various benchmarks, highlighting the downstream benefits of
high-quality multimodal pre-training. We release the synthetic training data
used for training UniFilter, the UniFilter model checkpoints, and the
high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to
the community for reproduction and further development.