RealSyn: Ein effektives und skalierbares Paradigma für die multimodale, verschachtelte Dokumententransformation
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm
February 18, 2025
Autoren: Tiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng
cs.AI
Zusammenfassung
Nach dem Vortraining auf umfangreichen Bild-Text-Paaren zeigt Contrastive Language-Image Pre-training (CLIP) vielversprechende Leistungen auf einer Vielzahl von Benchmarks. Ein erheblicher Teil nicht gepaarter Daten, wie multimodale, verschachtelte Dokumente, bleibt jedoch für das Lernen von Vision-Sprache-Repräsentationen ungenutzt. Um diese ungepaarten Dokumente vollständig zu nutzen, etablieren wir zunächst eine Pipeline zur Extraktion von Real-World-Daten, um hochwertige Bilder und Texte zu extrahieren. Anschließend entwerfen wir eine hierarchische Retrieval-Methode, um jedes Bild effizient mit mehreren semantisch relevanten realistischen Texten zu verknüpfen. Um feinkörnige visuelle Informationen weiter zu verbessern, schlagen wir ein Modul zur semantischen Bildverstärkung für die Erzeugung synthetischer Texte vor. Darüber hinaus verwenden wir eine semantische Balance-Sampling-Strategie, um die Diversität des Datensatzes zu erhöhen und das Lernen von Long-Tail-Konzepten zu verbessern. Basierend auf diesen Innovationen konstruieren wir RealSyn, einen Datensatz, der realistische und synthetische Texte kombiniert und in drei Größen verfügbar ist: 15M, 30M und 100M. Umfangreiche Experimente zeigen, dass RealSyn das Lernen von Vision-Sprache-Repräsentationen effektiv vorantreibt und eine starke Skalierbarkeit aufweist. Modelle, die auf RealSyn vortrainiert wurden, erzielen state-of-the-art Leistungen in mehreren Downstream-Aufgaben. Um zukünftige Forschung zu erleichtern, werden der RealSyn-Datensatz und die vortrainierten Modellgewichte unter https://github.com/deepglint/RealSyn veröffentlicht.
English
After pre-training on extensive image-text pairs, Contrastive Language-Image
Pre-training (CLIP) demonstrates promising performance on a wide variety of
benchmarks. However, a substantial volume of non-paired data, such as
multimodal interleaved documents, remains underutilized for vision-language
representation learning. To fully leverage these unpaired documents, we
initially establish a Real-World Data Extraction pipeline to extract
high-quality images and texts. Then we design a hierarchical retrieval method
to efficiently associate each image with multiple semantically relevant
realistic texts. To further enhance fine-grained visual information, we propose
an image semantic augmented generation module for synthetic text production.
Furthermore, we employ a semantic balance sampling strategy to improve dataset
diversity, enabling better learning of long-tail concepts. Based on these
innovations, we construct RealSyn, a dataset combining realistic and synthetic
texts, available in three scales: 15M, 30M, and 100M. Extensive experiments
demonstrate that RealSyn effectively advances vision-language representation
learning and exhibits strong scalability. Models pre-trained on RealSyn achieve
state-of-the-art performance on multiple downstream tasks. To facilitate future
research, the RealSyn dataset and pre-trained model weights are released at
https://github.com/deepglint/RealSyn.Summary
AI-Generated Summary