DanQing: Ein aktueller groß angelegter chinesischer Vision-Language-Vortrainingsdatensatz
DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset
January 15, 2026
papers.authors: Hengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang
cs.AI
papers.abstract
Vision-Language Pre-training (VLP)-Modelle erzielen durch kontrastives Vorabtraining an groß angelegten Bild-Text-Paaren hohe Leistungen in verschiedenen Downstream-Aufgaben. Die Verfügbarkeit umfangreicher englischsprachiger Bild-Text-Datensätze (z.B. COYO-700M und LAION-400M) hat die weite Verbreitung von Modellen wie CLIP und SigLIP in Aufgabenbereichen wie cross-modaler Retrieval und Bildbeschreibung ermöglicht. Die Entwicklung chinesischer Vision-Language-Pre-training-Modelle hingegen ist aufgrund des Mangels an hochwertigen chinesischen Bild-Text-Daten erheblich zurückgeblieben. Um diese Lücke zu schließen, entwickeln wir einen umfassenden Prozess zur Erstellung eines hochwertigen chinesischen cross-modalen Datensatzes. Als Ergebnis präsentieren wir DanQing, das 100 Millionen Bild-Text-Paare umfasst, die von Common Crawl gesammelt wurden. Im Unterschied zu bestehenden Datensätzen wird DanQing durch einen strengeren Auswahlprozess kuratiert, was eine überlegene Datenqualität gewährleistet. Darüber hinaus basiert DanQing primär auf Webdaten aus den Jahren 2024–2025, wodurch Modelle in der Lage sind, sich entwickelnde semantische Trends besser zu erfassen und somit einen höheren praktischen Nutzen zu bieten. Wir vergleichen DanQing mit bestehenden Datensätzen durch kontinuierliches Vorabtraining des SigLIP2-Modells. Experimentelle Ergebnisse zeigen, dass DanQing durchweg eine überlegene Leistung über eine Reihe chinesischer Downstream-Aufgaben hinweg erzielt, einschließlich Zero-Shot-Klassifikation, cross-modaler Retrieval und bewertungen auf Basis von LMMs. Um die weitere Forschung im Bereich chinesisches Vision-Language-Pre-training zu fördern, werden wir den DanQing-Datensatz unter der Creative Commons CC-BY 4.0-Lizenz open-source verfügbar machen.
English
Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.