DanQing：一个最新的大规模中文视觉-语言预训练数据集

Resumo

Os modelos de pré-treinamento visão-linguagem (VLP) demonstram forte desempenho em diversas tarefas subsequentes ao aprenderem de pares imagem-texto em larga escala por meio de pré-treinamento contrastivo. A disponibilização de extensos conjuntos de dados de imagem-texto em inglês (por exemplo, COYO-700M e LAION-400M) permitiu a ampla adoção de modelos como CLIP e SigLIP em tarefas incluindo recuperação cross-modal e legendagem de imagens. No entanto, o avanço do pré-treinamento visão-linguagem em chinês tem ficado substancialmente atrás, devido à escassez de dados imagem-texto em chinês de alta qualidade. Para preencher esta lacuna, desenvolvemos um *pipeline* abrangente para construir um conjunto de dados cross-modal chinês de alta qualidade. Como resultado, propomos DanQing, que contém 100 milhões de pares imagem-texto coletados do Common Crawl. Diferente dos conjuntos de dados existentes, o DanQing é curado por meio de um processo de seleção mais rigoroso, resultando em qualidade de dados superior. Além disso, o DanQing é construído principalmente a partir de dados da web de 2024-2025, permitindo que os modelos capturem melhor as tendências semânticas em evolução e, assim, oferecendo maior utilidade prática. Comparamos o DanQing com conjuntos de dados existentes através do pré-treinamento contínuo do modelo SigLIP2. Resultados experimentais mostram que o DanQing alcança consistentemente desempenho superior em uma série de tarefas subsequentes em chinês, incluindo classificação *zero-shot*, recuperação cross-modal e avaliações baseadas em LMM. Para facilitar pesquisas futuras em pré-treinamento visão-linguagem em chinês, disponibilizaremos o conjunto de dados DanQing como código aberto sob a licença Creative Commons CC-BY 4.0.

English

Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.

DanQing：一个最新的大规模中文视觉-语言预训练数据集

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

Resumo

Support