RealSyn: Эффективная и масштабируемая мультимодальная парадигма преобразования документов с чередованием данных
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm
February 18, 2025
Авторы: Tiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng
cs.AI
Аннотация
После предварительного обучения на обширных парах изображение-текст, метод Contrastive Language-Image Pre-training (CLIP) демонстрирует впечатляющие результаты на множестве бенчмарков. Однако значительный объем непарных данных, таких как мультимодальные чередующиеся документы, остается недостаточно используемым для обучения представлений в области зрения и языка. Чтобы полностью задействовать эти непарные документы, мы сначала создаем конвейер извлечения данных из реального мира для получения высококачественных изображений и текстов. Затем мы разрабатываем иерархический метод поиска для эффективного связывания каждого изображения с несколькими семантически релевантными реалистичными текстами. Для дальнейшего улучшения детализированной визуальной информации мы предлагаем модуль генерации с семантическим усилением изображений для создания синтетических текстов. Кроме того, мы используем стратегию семантически сбалансированной выборки для повышения разнообразия набора данных, что позволяет лучше изучать редкие концепции. На основе этих инноваций мы создаем RealSyn — набор данных, объединяющий реалистичные и синтетические тексты, доступный в трех масштабах: 15M, 30M и 100M. Многочисленные эксперименты показывают, что RealSyn эффективно продвигает обучение представлений в области зрения и языка и демонстрирует высокую масштабируемость. Модели, предварительно обученные на RealSyn, достигают наилучших результатов на множестве задач. Для содействия будущим исследованиям набор данных RealSyn и веса предварительно обученных моделей опубликованы на https://github.com/deepglint/RealSyn.
English
After pre-training on extensive image-text pairs, Contrastive Language-Image
Pre-training (CLIP) demonstrates promising performance on a wide variety of
benchmarks. However, a substantial volume of non-paired data, such as
multimodal interleaved documents, remains underutilized for vision-language
representation learning. To fully leverage these unpaired documents, we
initially establish a Real-World Data Extraction pipeline to extract
high-quality images and texts. Then we design a hierarchical retrieval method
to efficiently associate each image with multiple semantically relevant
realistic texts. To further enhance fine-grained visual information, we propose
an image semantic augmented generation module for synthetic text production.
Furthermore, we employ a semantic balance sampling strategy to improve dataset
diversity, enabling better learning of long-tail concepts. Based on these
innovations, we construct RealSyn, a dataset combining realistic and synthetic
texts, available in three scales: 15M, 30M, and 100M. Extensive experiments
demonstrate that RealSyn effectively advances vision-language representation
learning and exhibits strong scalability. Models pre-trained on RealSyn achieve
state-of-the-art performance on multiple downstream tasks. To facilitate future
research, the RealSyn dataset and pre-trained model weights are released at
https://github.com/deepglint/RealSyn.Summary
AI-Generated Summary