DanQing:一个最新的大规模中文视觉-语言预训练数据集
DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset
January 15, 2026
Autores: Hengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang
cs.AI
Resumo
Os modelos de pré-treinamento visão-linguagem (VLP) demonstram forte desempenho em diversas tarefas subsequentes ao aprenderem de pares imagem-texto em larga escala por meio de pré-treinamento contrastivo. A disponibilização de extensos conjuntos de dados de imagem-texto em inglês (por exemplo, COYO-700M e LAION-400M) permitiu a ampla adoção de modelos como CLIP e SigLIP em tarefas incluindo recuperação cross-modal e legendagem de imagens. No entanto, o avanço do pré-treinamento visão-linguagem em chinês tem ficado substancialmente atrás, devido à escassez de dados imagem-texto em chinês de alta qualidade. Para preencher esta lacuna, desenvolvemos um *pipeline* abrangente para construir um conjunto de dados cross-modal chinês de alta qualidade. Como resultado, propomos DanQing, que contém 100 milhões de pares imagem-texto coletados do Common Crawl. Diferente dos conjuntos de dados existentes, o DanQing é curado por meio de um processo de seleção mais rigoroso, resultando em qualidade de dados superior. Além disso, o DanQing é construído principalmente a partir de dados da web de 2024-2025, permitindo que os modelos capturem melhor as tendências semânticas em evolução e, assim, oferecendo maior utilidade prática. Comparamos o DanQing com conjuntos de dados existentes através do pré-treinamento contínuo do modelo SigLIP2. Resultados experimentais mostram que o DanQing alcança consistentemente desempenho superior em uma série de tarefas subsequentes em chinês, incluindo classificação *zero-shot*, recuperação cross-modal e avaliações baseadas em LMM. Para facilitar pesquisas futuras em pré-treinamento visão-linguagem em chinês, disponibilizaremos o conjunto de dados DanQing como código aberto sob a licença Creative Commons CC-BY 4.0.
English
Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.