ChatPaper.aiChatPaper

RealSyn : Un paradigme efficace et évolutif de transformation de documents intercalés multimodaux

RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

February 18, 2025
Auteurs: Tiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng
cs.AI

Résumé

Après un pré-entraînement sur un vaste ensemble de paires image-texte, le modèle Contrastive Language-Image Pre-training (CLIP) démontre des performances prometteuses sur une grande variété de benchmarks. Cependant, un volume important de données non appariées, telles que des documents multimodaux entrelacés, reste sous-utilisé pour l'apprentissage de représentations vision-langage. Pour exploiter pleinement ces documents non appariés, nous établissons d'abord un pipeline d'extraction de données du monde réel afin d'extraire des images et des textes de haute qualité. Ensuite, nous concevons une méthode de récupération hiérarchique pour associer efficacement chaque image à plusieurs textes réalistes sémantiquement pertinents. Pour renforcer davantage les informations visuelles fines, nous proposons un module de génération augmentée sémantique d'images pour la production de textes synthétiques. De plus, nous utilisons une stratégie d'échantillonnage équilibré sémantique pour améliorer la diversité du jeu de données, permettant un meilleur apprentissage des concepts de longue traîne. Sur la base de ces innovations, nous construisons RealSyn, un jeu de données combinant des textes réalistes et synthétiques, disponible en trois échelles : 15M, 30M et 100M. Des expériences approfondies démontrent que RealSyn fait progresser efficacement l'apprentissage de représentations vision-langage et présente une forte scalabilité. Les modèles pré-entraînés sur RealSyn atteignent des performances de pointe sur plusieurs tâches en aval. Pour faciliter les recherches futures, le jeu de données RealSyn et les poids des modèles pré-entraînés sont disponibles à l'adresse https://github.com/deepglint/RealSyn.
English
After pre-training on extensive image-text pairs, Contrastive Language-Image Pre-training (CLIP) demonstrates promising performance on a wide variety of benchmarks. However, a substantial volume of non-paired data, such as multimodal interleaved documents, remains underutilized for vision-language representation learning. To fully leverage these unpaired documents, we initially establish a Real-World Data Extraction pipeline to extract high-quality images and texts. Then we design a hierarchical retrieval method to efficiently associate each image with multiple semantically relevant realistic texts. To further enhance fine-grained visual information, we propose an image semantic augmented generation module for synthetic text production. Furthermore, we employ a semantic balance sampling strategy to improve dataset diversity, enabling better learning of long-tail concepts. Based on these innovations, we construct RealSyn, a dataset combining realistic and synthetic texts, available in three scales: 15M, 30M, and 100M. Extensive experiments demonstrate that RealSyn effectively advances vision-language representation learning and exhibits strong scalability. Models pre-trained on RealSyn achieve state-of-the-art performance on multiple downstream tasks. To facilitate future research, the RealSyn dataset and pre-trained model weights are released at https://github.com/deepglint/RealSyn.

Summary

AI-Generated Summary

PDF162February 19, 2025