ChatPaper.aiChatPaper

RealSyn: Un Paradigma Efectivo y Escalable para la Transformación de Documentos Multimodales Intercalados

RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

February 18, 2025
Autores: Tiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng
cs.AI

Resumen

Tras el preentrenamiento con extensos pares de imagen-texto, el Preentrenamiento Contrastivo de Lenguaje-Imagen (CLIP) demuestra un rendimiento prometedor en una amplia variedad de benchmarks. Sin embargo, un volumen sustancial de datos no emparejados, como documentos intercalados multimodales, sigue siendo subutilizado para el aprendizaje de representaciones visión-lenguaje. Para aprovechar plenamente estos documentos no emparejados, inicialmente establecemos una canalización de Extracción de Datos del Mundo Real para obtener imágenes y textos de alta calidad. Luego diseñamos un método de recuperación jerárquica para asociar eficientemente cada imagen con múltiples textos realistas semánticamente relevantes. Para mejorar aún más la información visual detallada, proponemos un módulo de generación aumentada semántica de imágenes para la producción de texto sintético. Además, empleamos una estrategia de muestreo equilibrado semántico para mejorar la diversidad del conjunto de datos, permitiendo un mejor aprendizaje de conceptos de cola larga. Basándonos en estas innovaciones, construimos RealSyn, un conjunto de datos que combina textos realistas y sintéticos, disponible en tres escalas: 15M, 30M y 100M. Experimentos extensivos demuestran que RealSyn avanza efectivamente el aprendizaje de representaciones visión-lenguaje y exhibe una fuerte escalabilidad. Los modelos preentrenados en RealSyn logran un rendimiento de vanguardia en múltiples tareas posteriores. Para facilitar futuras investigaciones, el conjunto de datos RealSyn y los pesos del modelo preentrenado se publican en https://github.com/deepglint/RealSyn.
English
After pre-training on extensive image-text pairs, Contrastive Language-Image Pre-training (CLIP) demonstrates promising performance on a wide variety of benchmarks. However, a substantial volume of non-paired data, such as multimodal interleaved documents, remains underutilized for vision-language representation learning. To fully leverage these unpaired documents, we initially establish a Real-World Data Extraction pipeline to extract high-quality images and texts. Then we design a hierarchical retrieval method to efficiently associate each image with multiple semantically relevant realistic texts. To further enhance fine-grained visual information, we propose an image semantic augmented generation module for synthetic text production. Furthermore, we employ a semantic balance sampling strategy to improve dataset diversity, enabling better learning of long-tail concepts. Based on these innovations, we construct RealSyn, a dataset combining realistic and synthetic texts, available in three scales: 15M, 30M, and 100M. Extensive experiments demonstrate that RealSyn effectively advances vision-language representation learning and exhibits strong scalability. Models pre-trained on RealSyn achieve state-of-the-art performance on multiple downstream tasks. To facilitate future research, the RealSyn dataset and pre-trained model weights are released at https://github.com/deepglint/RealSyn.

Summary

AI-Generated Summary

PDF162February 19, 2025