ChatPaper.aiChatPaper

DanQing:一个前沿的大规模中文视觉语言预训练数据集

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

January 15, 2026
papers.authors: Hengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang
cs.AI

papers.abstract

Les modèles de pré-entraînement vision-langage (VLP) démontrent des performances solides sur diverses tâches en aval en apprenant à partir de larges ensembles de paires image-texte via un pré-entraînement contrastif. La publication de vastes jeux de données anglais image-texte (par exemple, COYO-700M et LAION-400M) a permis l'adoption généralisée de modèles tels que CLIP et SigLIP pour des tâches incluant la recherche cross-modale et la légendation d'images. Cependant, les progrès du pré-entraînement vision-langage pour le chinois ont considérablement pris du retard, en raison de la rareté de données image-texte chinoises de haute qualité. Pour combler cette lacune, nous développons une méthodologie complète pour construire un jeu de données cross-modal chinois de haute qualité. En conséquence, nous proposons DanQing, qui contient 100 millions de paires image-texte collectées depuis Common Crawl. Contrairement aux jeux de données existants, DanQing est constitué via un processus de sélection plus rigoureux, produisant une qualité de données supérieure. De plus, DanQing est principalement construit à partir de données web de 2024-2025, permettant aux modèles de mieux capturer les tendances sémantiques évolutives et offrant ainsi une utilité pratique accrue. Nous comparons DanQing aux jeux de données existants en poursuivant le pré-entraînement du modèle SigLIP2. Les résultats expérimentaux montrent que DanQing obtient constamment des performances supérieures sur une série de tâches chinoises en aval, incluant la classification zero-shot, la recherche cross-modale et des évaluations basées sur LMM. Pour faciliter les recherches futures sur le pré-entraînement vision-langage chinois, nous ouvrirons le jeu de données DanQing sous licence Creative Commons CC-BY 4.0.
English
Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.
PDF292January 17, 2026