DanQing：一个最新的大规模中文视觉语言预训练数据集

Samenvatting

Vision-Language Pre-training (VLP)-modellen vertonen sterke prestaties in diverse downstreamtaken door middel van contrastieve voorafgaande training op grootschalige beeld-tekstparen. De beschikbaarheid van uitgebreide Engelstalige beeld-tekstdatasets (zoals COYO-700M en LAION-400M) heeft de wijdverspreide adoptie van modellen zoals CLIP en SigLIP mogelijk gemaakt voor taken zoals cross-modale retrievable en beeldonderschrijving. De vooruitgang van Chinese vision-language pretraining is echter aanzienlijk achtergebleven, voornamelijk door een gebrek aan hoogwaardige Chinese beeld-tekstgegevens. Om dit hiaat te dichten, ontwikkelden we een uitgebreide pijplijn voor de constructie van een hoogwaardige Chinese cross-modale dataset. Als resultaat presenteren we DanQing, een dataset met 100 miljoen beeld-tekstparen verzameld vanuit Common Crawl. In tegenstelling tot bestaande datasets is DanQing samengesteld via een strenger selectieproces, wat resulteert in superieure data kwaliteit. Bovendien is DanQing voornamelijk opgebouwd uit webgegevens van 2024-2025, waardoor modellen beter evoluerende semantische trends kunnen vastleggen en het zo een grotere praktische bruikbaarheid biedt. We vergelijken DanQing met bestaande datasets door continue pretraining van het SigLIP2-model. Experimentele resultaten tonen aan dat DanQing consistent superieure prestaties behaalt in een reeks Chinese downstreamtaken, inclusief zero-shot classificatie, cross-modale retrievable en evaluaties op basis van LMM's. Om verder onderzoek naar Chinese vision-language pretraining te faciliteren, zullen we de DanQing-dataset opensource beschikbaar stellen onder de Creative Commons CC-BY 4.0-licentie.

English

Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.

DanQing：一个最新的大规模中文视觉语言预训练数据集

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

Samenvatting

Support