DanQing: Un Conjunto de Datos de Pre-entrenamiento de Visión y Lenguaje en Chino a Gran Escalia y Actualizado
DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset
January 15, 2026
Autores: Hengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang
cs.AI
Resumen
Los modelos de preentrenamiento visión-lenguaje (VLP) demuestran un rendimiento sólido en diversas tareas posteriores al aprender de pares imagen-texto a gran escala mediante preentrenamiento contrastivo. La disponibilidad de extensos conjuntos de datos inglés de imagen-texto (por ejemplo, COYO-700M y LAION-400M) ha permitido la adopción generalizada de modelos como CLIP y SigLIP en tareas que incluyen recuperación cross-modal y generación de descripciones de imágenes. Sin embargo, el avance del preentrenamiento visión-lenguaje en chino se ha quedado considerablemente rezagado, debido a la escasez de datos imagen-texto en chino de alta calidad. Para abordar esta brecha, desarrollamos un proceso integral para construir un conjunto de datos cross-modal en chino de alta calidad. Como resultado, proponemos DanQing, que contiene 100 millones de pares imagen-texto recopilados de Common Crawl. A diferencia de los conjuntos de datos existentes, DanQing se cura mediante un proceso de selección más riguroso, lo que produce una calidad de datos superior. Además, DanQing se construye principalmente a partir de datos web de 2024-2025, permitiendo que los modelos capturen mejor las tendencias semánticas en evolución y, por lo tanto, ofrezcan una mayor utilidad práctica. Comparamos DanQing con conjuntos de datos existentes mediante el preentrenamiento continuo del modelo SigLIP2. Los resultados experimentales muestran que DanQing logra consistentemente un rendimiento superior en una variedad de tareas posteriores en chino, incluyendo clasificación zero-shot, recuperación cross-modal y evaluaciones basadas en LMM. Para facilitar futuras investigaciones en preentrenamiento visión-lenguaje en chino, pondremos a disposición el conjunto de datos DanQing bajo la licencia Creative Commons CC-BY 4.0.
English
Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.