ChatPaper.aiChatPaper

DanQing: 최신 대규모 중국어 비전-언어 사전 학습 데이터셋

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

January 15, 2026
저자: Hengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang
cs.AI

초록

비전-언어 사전학습(VLP) 모델은 대규모 이미지-텍스트 쌍을 대조 학습 방식으로 학습하여 다양한 다운스트림 작업에서 우수한 성능을 보여줍니다. 방대한 양의 영어 이미지-텍스트 데이터셋(예: COYO-700M, LAION-400M)의 공개로 인해 CLIP 및 SigLIP과 같은 모델이 크로스모달 검색 및 이미지 캡셔닝을 포함한 작업에 널리 활용되고 있습니다. 그러나 고품질 중국어 이미지-텍스트 데이터의 부족으로 중국어 비전-언어 사전학습 분야의 발전은 크게 뒤처져 있습니다. 이러한 격차를 해소하기 위해 본 연구에서는 고품질 중국어 크로스모달 데이터셋 구축을 위한 종합적인 파이프라인을 개발했습니다. 그 결과, Common Crawl에서 수집된 1억 개의 이미지-텍스트 쌍으로 구성된 DanQing 데이터셋을 제안합니다. 기존 데이터셋과 달리 DanQing은 보다 엄격한 선별 과정을 통해 구축되어 우수한 데이터 품질을 자랑합니다. 또한 DanQing은 주로 2024-2025년 웹 데이터로 구성되어 모델이 진화하는 의미론적 트렌드를 더 잘 포착할 수 있으므로 실용성이 더 높습니다. SigLIP2 모델의 지속적 사전학습을 통해 DanQing을 기존 데이터셋과 비교한 결과, DanQing은 제로-샷 분류, 크로스모달 검색 및 LMM 기반 평가를 포함한 다양한 중국어 다운스트림 작업에서 일관되게 우수한 성능을 달성함을 확인했습니다. 중국어 비전-언어 사전학습 연구의 활성화를 위해 DanQing 데이터셋을 크리에이티브 커먼즈 CC-BY 4.0 라이선스 하에 공개할 예정입니다.
English
Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.
PDF292January 17, 2026