Обучите унифицированный классификатор качества мультимодальных данных с использованием синтетических данных.
Train a Unified Multimodal Data Quality Classifier with Synthetic Data
October 16, 2025
Авторы: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li
cs.AI
Аннотация
Мультимодальные крупные языковые модели (MLLMs) продолжают предварительное обучение на смеси данных с подписями к изображениям и чередующимися документальными данными, при этом качественная фильтрация данных для чередующихся изображений и текстов остается недостаточно изученной. Мы предлагаем обучить эффективную MLLM в качестве универсального классификатора качества мультимодальных данных для фильтрации как высококачественных подписей к изображениям, так и чередующихся данных (UniFilter). Для решения задачи сбора разнообразных размеченных мультимодальных данных мы вводим полусинтетический подход, который использует доступные исходные изображения и генерирует соответствующий текст для четырех уровней качества. Этот метод позволяет эффективно создавать пары "образец-оценка" как для данных с подписями, так и для чередующихся документов для обучения UniFilter. Мы применяем UniFilter для отбора высококачественных данных с подписями из набора данных DataComp и чередующихся данных из набора OBELICS, содержащего чередующиеся изображения и тексты. MLLMs, предварительно обученные на отфильтрованных данных, демонстрируют значительно улучшенные возможности по сравнению с моделями, обученными на данных, отфильтрованных базовыми методами, достигая более сильных способностей к рассуждению в условиях нулевого сэмплинга и обучению в контексте. После визуального контролируемого тонкого обучения эти MLLMs, индуцированные UniFilter, показывают более высокую производительность на различных тестовых наборах, подчеркивая преимущества высококачественного мультимодального предварительного обучения для последующих задач. Мы публикуем синтетические обучающие данные, использованные для обучения UniFilter, контрольные точки модели UniFilter и высококачественное подмножество чередующихся документов OBELICS-HQ, отобранное с помощью UniFilter, для воспроизведения и дальнейшего развития сообществом.
English
The Multimodal Large Language Models (MLLMs) are continually pre-trained on a
mixture of image-text caption data and interleaved document data, while the
high-quality data filtering towards image-text interleaved document data is
under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal
Data Quality Classifier to Filter both high-quality image-text caption and
interleaved data (UniFilter). To address the challenge of collecting diverse
labeled multimodal data, we introduce a semi-synthetic approach that leverages
readily available raw images and generates corresponding text across four
quality levels. This method enables efficient creation of sample-score pairs
for both caption and interleaved document data to train UniFilter. We apply
UniFilter to curate high-quality caption data from DataComp caption dataset and
interleaved data from the OBELICS image-text interleaved dataset. MLLMs
pre-trained on the filtered data demonstrate significantly enhanced
capabilities compared to those trained on baseline-filtered data, achieving
stronger zero-shot reasoning and in-context learning capabilities. After visual
supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger
performance on various benchmarks, highlighting the downstream benefits of
high-quality multimodal pre-training. We release the synthetic training data
used for training UniFilter, the UniFilter model checkpoints, and the
high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to
the community for reproduction and further development.