DanQing：一个最新的大规模中文视觉-语言预训练数据集

Abstract

I modelli di pre-addestramento visione-linguaggio (VLP) dimostrano prestazioni solide in varie attività downstream apprendendo da coppie immagine-testo su larga scala mediante pre-addestramento contrastivo. La pubblicazione di estesi dataset inglesi di immagini e testi (ad esempio, COYO-700M e LAION-400M) ha favorito l'adozione diffusa di modelli come CLIP e SigLIP in compiti quali la ricerca cross-modale e la descrizione delle immagini. Tuttavia, il progresso del pre-addestramento visione-linguaggio per il cinese è rimasto notevolmente indietro, a causa della scarsità di dati immagine-testo cinesi di alta qualità. Per colmare questa lacuna, abbiamo sviluppato una pipeline completa per la costruzione di un dataset cross-modale cinese di alta qualità. Di conseguenza, proponiamo DanQing, che contiene 100 milioni di coppie immagine-testo raccolte da Common Crawl. A differenza dei dataset esistenti, DanQing è curato attraverso un processo di selezione più rigoroso, ottenendo una qualità dei dati superiore. Inoltre, DanQing è costituito principalmente da dati web del 2024-2025, consentendo ai modelli di cogliere meglio le tendenze semantiche in evoluzione e offrendo quindi una maggiore utilità pratica. Confrontiamo DanQing con i dataset esistenti mediante pre-addestramento continuo del modello SigLIP2. I risultati sperimentali mostrano che DanQing raggiunge costantemente prestazioni superiori in una serie di attività downstream per il cinese, inclusa la classificazione zero-shot, la ricerca cross-modale e valutazioni basate su LMM. Per facilitare ulteriori ricerche nel pre-addestramento visione-linguaggio per il cinese, renderemo open-source il dataset DanQing con licenza Creative Commons CC-BY 4.0.

English

Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.

DanQing：一个最新的大规模中文视觉-语言预训练数据集

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

Abstract

Support