ChatPaper.aiChatPaper

합성 데이터를 사용하여 통합 다중모달 데이터 품질 분류기 학습하기

Train a Unified Multimodal Data Quality Classifier with Synthetic Data

October 16, 2025
저자: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI

초록

멀티모달 대형 언어 모델(MLLMs)은 이미지-텍스트 캡션 데이터와 인터리브 문서 데이터의 혼합으로 지속적으로 사전 학습되고 있지만, 이미지-텍스트 인터리브 문서 데이터에 대한 고품질 데이터 필터링은 아직 충분히 탐구되지 않았습니다. 우리는 고품질 이미지-텍스트 캡션 및 인터리브 데이터를 모두 필터링하기 위한 통합 멀티모달 데이터 품질 분류기(UniFilter)로 효율적인 MLLM을 학습시키는 것을 제안합니다. 다양한 레이블이 지정된 멀티모달 데이터를 수집하는 문제를 해결하기 위해, 우리는 쉽게 이용 가능한 원시 이미지를 활용하고 네 가지 품질 수준에 해당하는 텍스트를 생성하는 반합성 접근 방식을 도입했습니다. 이 방법은 캡션 및 인터리브 문서 데이터 모두에 대한 샘플-점수 쌍을 효율적으로 생성하여 UniFilter를 학습시키는 것을 가능하게 합니다. 우리는 UniFilter를 사용하여 DataComp 캡션 데이터셋에서 고품질 캡션 데이터를 선별하고, OBELICS 이미지-텍스트 인터리브 데이터셋에서 고품질 인터리브 데이터를 선별했습니다. 필터링된 데이터로 사전 학습된 MLLM은 기준 필터링 데이터로 학습된 모델에 비해 상당히 향상된 능력을 보여주며, 더 강력한 제로샷 추론 및 인컨텍스트 학습 능력을 달성했습니다. 시각적 지도 미세 조정 후, 이러한 UniFilter로 인도된 MLLM은 다양한 벤치마크에서 더 강력한 성능을 보여주며, 고품질 멀티모달 사전 학습의 하류 작업 이점을 강조합니다. 우리는 UniFilter 학습에 사용된 합성 학습 데이터, UniFilter 모델 체크포인트, 그리고 UniFilter로 선별된 고품질 인터리브 문서 하위 집합인 OBELICS-HQ를 커뮤니티에 공개하여 재현 및 추가 개발을 가능하게 합니다.
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a mixture of image-text caption data and interleaved document data, while the high-quality data filtering towards image-text interleaved document data is under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal Data Quality Classifier to Filter both high-quality image-text caption and interleaved data (UniFilter). To address the challenge of collecting diverse labeled multimodal data, we introduce a semi-synthetic approach that leverages readily available raw images and generates corresponding text across four quality levels. This method enables efficient creation of sample-score pairs for both caption and interleaved document data to train UniFilter. We apply UniFilter to curate high-quality caption data from DataComp caption dataset and interleaved data from the OBELICS image-text interleaved dataset. MLLMs pre-trained on the filtered data demonstrate significantly enhanced capabilities compared to those trained on baseline-filtered data, achieving stronger zero-shot reasoning and in-context learning capabilities. After visual supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger performance on various benchmarks, highlighting the downstream benefits of high-quality multimodal pre-training. We release the synthetic training data used for training UniFilter, the UniFilter model checkpoints, and the high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to the community for reproduction and further development.
PDF22October 20, 2025