RealSyn: Um Paradigma Eficaz e Escalável de Transformação de Documentos Intercalados Multimodais
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm
February 18, 2025
Autores: Tiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng
cs.AI
Resumo
Após o pré-treinamento em extensos pares de imagem-texto, o Contrastive Language-Image Pre-training (CLIP) demonstra desempenho promissor em uma ampla variedade de benchmarks. No entanto, um volume substancial de dados não pareados, como documentos intercalados multimodais, permanece subutilizado para o aprendizado de representações visão-linguagem. Para aproveitar plenamente esses documentos não pareados, inicialmente estabelecemos um pipeline de Extração de Dados do Mundo Real para extrair imagens e textos de alta qualidade. Em seguida, projetamos um método hierárquico de recuperação para associar eficientemente cada imagem a múltiplos textos realistas semanticamente relevantes. Para aprimorar ainda mais as informações visuais detalhadas, propomos um módulo de geração aumentada semântica de imagens para a produção de textos sintéticos. Além disso, empregamos uma estratégia de amostragem balanceada semanticamente para melhorar a diversidade do conjunto de dados, permitindo um melhor aprendizado de conceitos de cauda longa. Com base nessas inovações, construímos o RealSyn, um conjunto de dados que combina textos realistas e sintéticos, disponível em três escalas: 15M, 30M e 100M. Experimentos extensivos demonstram que o RealSyn avança efetivamente o aprendizado de representações visão-linguagem e exibe forte escalabilidade. Modelos pré-treinados no RealSyn alcançam desempenho de ponta em múltiplas tarefas downstream. Para facilitar pesquisas futuras, o conjunto de dados RealSyn e os pesos dos modelos pré-treinados são disponibilizados em https://github.com/deepglint/RealSyn.
English
After pre-training on extensive image-text pairs, Contrastive Language-Image
Pre-training (CLIP) demonstrates promising performance on a wide variety of
benchmarks. However, a substantial volume of non-paired data, such as
multimodal interleaved documents, remains underutilized for vision-language
representation learning. To fully leverage these unpaired documents, we
initially establish a Real-World Data Extraction pipeline to extract
high-quality images and texts. Then we design a hierarchical retrieval method
to efficiently associate each image with multiple semantically relevant
realistic texts. To further enhance fine-grained visual information, we propose
an image semantic augmented generation module for synthetic text production.
Furthermore, we employ a semantic balance sampling strategy to improve dataset
diversity, enabling better learning of long-tail concepts. Based on these
innovations, we construct RealSyn, a dataset combining realistic and synthetic
texts, available in three scales: 15M, 30M, and 100M. Extensive experiments
demonstrate that RealSyn effectively advances vision-language representation
learning and exhibits strong scalability. Models pre-trained on RealSyn achieve
state-of-the-art performance on multiple downstream tasks. To facilitate future
research, the RealSyn dataset and pre-trained model weights are released at
https://github.com/deepglint/RealSyn.Summary
AI-Generated Summary