DanQing: 最新の大規模中国語視覚言語事前学習データセット
DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset
January 15, 2026
著者: Hengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang
cs.AI
要旨
ビジョン言語事前学習(VLP)モデルは、大規模な画像テキストペアを対照学習により事前学習することで、様々なダウンストリームタスクにおいて優れた性能を発揮する。大規模な英語画像テキストデータセット(COYO-700MやLAION-400Mなど)の公開により、CLIPやSigLIPなどのモデルがクロスモーダル検索や画像キャプション生成などのタスクで広く採用されている。しかし、高品質な中国語画像テキストデータの不足により、中国語ビジョン言語事前学習の進展は大幅に遅れている。この課題を解決するため、我々は高品質な中国語クロスモーダルデータセットを構築する包括的なパイプラインを開発した。その結果、Common Crawlから収集した1億枚の画像テキストペアで構成されるDanQingを提案する。既存のデータセットとは異なり、DanQingはより厳格な選定プロセスを経ており、優れたデータ品質を実現している。さらに、DanQingは主に2024年から2025年のウェブデータから構築されているため、モデルが変化する意味的傾向をより適切に捉えることができ、実用性が高い。SigLIP2モデルの継続事前学習により、DanQingを既存のデータセットと比較した実験結果から、ゼロショット分類、クロスモーダル検索、LMMベースの評価など、様々な中国語ダウンストリームタスクにおいて、DanQingが一貫して優れた性能を達成することが示された。中国語ビジョン言語事前学習のさらなる研究を促進するため、DanQingデータセットをCreative Commons CC-BY 4.0ライセンスの下でオープンソース化する予定である。
English
Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.