RealSyn: Un Paradigma Efficace e Scalabile per la Trasformazione Intervallata Multimodale di Documenti
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm
February 18, 2025
Autori: Tiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng
cs.AI
Abstract
Dopo il pre-addestramento su ampie coppie immagine-testo, il Contrastive Language-Image Pre-training (CLIP) dimostra prestazioni promettenti su una vasta gamma di benchmark. Tuttavia, un volume sostanziale di dati non accoppiati, come documenti multimodali intervallati, rimane sottoutilizzato per l'apprendimento di rappresentazioni visivo-linguistiche. Per sfruttare appieno questi documenti non accoppiati, inizialmente stabiliamo una pipeline di estrazione dati del mondo reale per estrarre immagini e testi di alta qualità. Successivamente, progettiamo un metodo di recupero gerarchico per associare in modo efficiente ogni immagine a più testi realistici semanticamente rilevanti. Per migliorare ulteriormente le informazioni visive dettagliate, proponiamo un modulo di generazione aumentata semantica dell'immagine per la produzione di testi sintetici. Inoltre, utilizziamo una strategia di campionamento bilanciato semantico per migliorare la diversità del dataset, consentendo un migliore apprendimento di concetti a coda lunga. Sulla base di queste innovazioni, costruiamo RealSyn, un dataset che combina testi realistici e sintetici, disponibile in tre scale: 15M, 30M e 100M. Esperimenti estesi dimostrano che RealSyn avanza efficacemente l'apprendimento di rappresentazioni visivo-linguistiche e mostra una forte scalabilità. I modelli pre-addestrati su RealSyn raggiungono prestazioni all'avanguardia su molteplici task downstream. Per facilitare la ricerca futura, il dataset RealSyn e i pesi del modello pre-addestrato sono rilasciati su https://github.com/deepglint/RealSyn.
English
After pre-training on extensive image-text pairs, Contrastive Language-Image
Pre-training (CLIP) demonstrates promising performance on a wide variety of
benchmarks. However, a substantial volume of non-paired data, such as
multimodal interleaved documents, remains underutilized for vision-language
representation learning. To fully leverage these unpaired documents, we
initially establish a Real-World Data Extraction pipeline to extract
high-quality images and texts. Then we design a hierarchical retrieval method
to efficiently associate each image with multiple semantically relevant
realistic texts. To further enhance fine-grained visual information, we propose
an image semantic augmented generation module for synthetic text production.
Furthermore, we employ a semantic balance sampling strategy to improve dataset
diversity, enabling better learning of long-tail concepts. Based on these
innovations, we construct RealSyn, a dataset combining realistic and synthetic
texts, available in three scales: 15M, 30M, and 100M. Extensive experiments
demonstrate that RealSyn effectively advances vision-language representation
learning and exhibits strong scalability. Models pre-trained on RealSyn achieve
state-of-the-art performance on multiple downstream tasks. To facilitate future
research, the RealSyn dataset and pre-trained model weights are released at
https://github.com/deepglint/RealSyn.Summary
AI-Generated Summary