ChatPaper.aiChatPaper

RealSyn: Een Effectief en Schaalbaar Paradigma voor Multimodale Interleaved Documenttransformatie

RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

February 18, 2025
Auteurs: Tiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng
cs.AI

Samenvatting

Na voorafgaande training op uitgebreide afbeelding-tekstparen toont Contrastive Language-Image Pre-training (CLIP) veelbelovende prestaties op een breed scala aan benchmarks. Een aanzienlijke hoeveelheid niet-gepaarde gegevens, zoals multimodale interleaved documenten, blijft echter onderbenut voor visueel-taalkundige representatieleer. Om deze niet-gepaarde documenten volledig te benutten, stellen we eerst een Real-World Data Extraction-pijplijn op om hoogwaardige afbeeldingen en teksten te extraheren. Vervolgens ontwerpen we een hiërarchische retrievamethode om elke afbeelding efficiënt te koppelen aan meerdere semantisch relevante realistische teksten. Om fijnmazige visuele informatie verder te versterken, stellen we een module voor semantische augmentatie van afbeeldingen voor voor de productie van synthetische tekst. Bovendien gebruiken we een semantische balanssteekproefstrategie om de diversiteit van de dataset te verbeteren, waardoor het leren van langstaartconcepten beter mogelijk wordt. Op basis van deze innovaties construeren we RealSyn, een dataset die realistische en synthetische teksten combineert, beschikbaar in drie schalen: 15M, 30M en 100M. Uitgebreide experimenten tonen aan dat RealSyn de visueel-taalkundige representatieleer effectief bevordert en sterke schaalbaarheid vertoont. Modellen die vooraf zijn getraind op RealSyn behalen state-of-the-art prestaties op meerdere downstream taken. Om toekomstig onderzoek te vergemakkelijken, zijn de RealSyn-dataset en de vooraf getrainde modelgewichten vrijgegeven op https://github.com/deepglint/RealSyn.
English
After pre-training on extensive image-text pairs, Contrastive Language-Image Pre-training (CLIP) demonstrates promising performance on a wide variety of benchmarks. However, a substantial volume of non-paired data, such as multimodal interleaved documents, remains underutilized for vision-language representation learning. To fully leverage these unpaired documents, we initially establish a Real-World Data Extraction pipeline to extract high-quality images and texts. Then we design a hierarchical retrieval method to efficiently associate each image with multiple semantically relevant realistic texts. To further enhance fine-grained visual information, we propose an image semantic augmented generation module for synthetic text production. Furthermore, we employ a semantic balance sampling strategy to improve dataset diversity, enabling better learning of long-tail concepts. Based on these innovations, we construct RealSyn, a dataset combining realistic and synthetic texts, available in three scales: 15M, 30M, and 100M. Extensive experiments demonstrate that RealSyn effectively advances vision-language representation learning and exhibits strong scalability. Models pre-trained on RealSyn achieve state-of-the-art performance on multiple downstream tasks. To facilitate future research, the RealSyn dataset and pre-trained model weights are released at https://github.com/deepglint/RealSyn.

Summary

AI-Generated Summary

PDF162February 19, 2025