ChatPaper.aiChatPaper

DanQing: Современный крупномасштабный китайский набор данных для предварительного обучения моделей "визуальный язык"

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

January 15, 2026
Авторы: Hengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang
cs.AI

Аннотация

Модели предварительного обучения Vision-Language (VLP) демонстрируют высокую производительность в различных downstream-задачах, обучаясь на крупномасштабных парах «изображение-текст» с помощью контрастного предобучения. Публикация обширных англоязычных наборов данных изображений и текстов (таких как COYO-700M и LAION-400M) позволила широко внедрить модели, такие как CLIP и SigLIP, в задачи, включая кросс-модальный поиск и генерацию подписей к изображениям. Однако развитие китайского визуально-языкового предобучения существенно отстает из-за нехватки высококачественных китайских данных типа «изображение-текст». Чтобы устранить этот пробел, мы разработали комплексный пайплайн для создания высококачественного китайского кросс-модального набора данных. В результате мы представляем DanQing, который содержит 100 миллионов пар «изображение-текст», собранных из Common Crawl. В отличие от существующих наборов данных, DanQing создан с помощью более строгого процесса отбора, что обеспечивает превосходное качество данных. Более того, DanQing в основном построен на основе веб-данных за 2024-2025 годы, что позволяет моделям лучше улавливать эволюционирующие семантические тренды и, следовательно, предлагать большую практическую пользу. Мы сравниваем DanQing с существующими наборами данных путем непрерывного предобучения модели SigLIP2. Результаты экспериментов показывают, что DanQing стабильно достигает превосходной производительности в ряде китайских downstream-задач, включая классификацию с нулевым обучением (zero-shot), кросс-модальный поиск и оценки на основе LMM. Для содействия дальнейшим исследованиям в области китайского визуально-языкового предобучения мы опубликуем набор данных DanQing под лицензией Creative Commons CC-BY 4.0.
English
Vision-Language Pre-training (VLP) models demonstrate strong performance across various downstream tasks by learning from large-scale image-text pairs through contrastive pretraining. The release of extensive English image-text datasets (e.g., COYO-700M and LAION-400M) has enabled widespread adoption of models such as CLIP and SigLIP in tasks including cross-modal retrieval and image captioning. However, the advancement of Chinese vision-language pretraining has substantially lagged behind, due to the scarcity of high-quality Chinese image-text data. To address this gap, we develop a comprehensive pipeline for constructing a high-quality Chinese cross-modal dataset. As a result, we propose DanQing, which contains 100 million image-text pairs collected from Common Crawl. Different from existing datasets, DanQing is curated through a more rigorous selection process, yielding superior data quality. Moreover, DanQing is primarily built from 2024-2025 web data, enabling models to better capture evolving semantic trends and thus offering greater practical utility. We compare DanQing with existing datasets by continual pre-training of the SigLIP2 model. Experimental results show that DanQing consistently achieves superior performance across a range of Chinese downstream tasks, including zero-shot classification, cross-modal retrieval, and LMM-based evaluations. To facilitate further research in Chinese vision-language pre-training, we will open-source the DanQing dataset under the Creative Common CC-BY 4.0 license.
PDF292January 17, 2026