CCI4.0: Двуязычный набор данных для предварительного обучения, направленный на улучшение способности к рассуждению в крупных языковых моделях
CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models
June 9, 2025
Авторы: Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
cs.AI
Аннотация
Мы представляем CCI4.0, крупномасштабный двуязычный набор данных для предварительного обучения, разработанный для обеспечения превосходного качества данных и разнообразных траекторий рассуждений, напоминающих человеческие. CCI4.0 занимает примерно 35 ТБ дискового пространства и состоит из двух поднаборов: CCI4.0-M2-Base и CCI4.0-M2-CoT. CCI4.0-M2-Base объединяет тщательно отобранный китайский веб-корпус объемом 5,2 ТБ, английский поднабор из Nemotron-CC объемом 22,5 ТБ, а также разнообразные источники из области математики, вики, arXiv и кода. Хотя эти данные в основном взяты из хорошо обработанных наборов, стандарты качества в различных областях динамичны и требуют значительного экспертного опыта и труда для обработки. Поэтому мы предлагаем новый подход, обосновывающий качество данных в основном на основе моделей, через двухэтапную дедупликацию, многоклассовую оценку качества и фильтрацию на основе беглости с учетом домена. Мы извлекаем 4,5 миллиарда шаблонов CoT (Chain-of-Thought), названных CCI4.0-M2-CoT. В отличие от дистилляции CoT из более крупных моделей, наш предложенный поэтапный метод извлечения CoT демонстрирует разнообразные паттерны рассуждений и значительно снижает вероятность галлюцинаций. Эмпирические оценки показывают, что модели языкового предобучения (LLM), обученные на CCI4.0, получают преимущество от более чистых и надежных обучающих сигналов, что приводит к последовательным улучшениям в задачах, особенно в математике и задачах отражения кода. Наши результаты подчеркивают критическую роль строгой курации данных и шаблонов человеческого мышления в повышении производительности LLM, проливая свет на автоматическую обработку корпусов для предварительного обучения.
English
We introduce CCI4.0, a large-scale bilingual pre-training dataset engineered
for superior data quality and diverse human-like reasoning trajectory. CCI4.0
occupies roughly 35 TB of disk space and comprises two sub-datasets:
CCI4.0-M2-Base and CCI4.0-M2-CoT. CCI4.0-M2-Base combines a 5.2 TB carefully
curated Chinese web corpus, a 22.5 TB English subset from Nemotron-CC, and
diverse sources from math, wiki, arxiv, and code. Although these data are
mostly sourced from well-processed datasets, the quality standards of various
domains are dynamic and require extensive expert experience and labor to
process. So, we propose a novel pipeline justifying data quality mainly based
on models through two-stage deduplication, multiclassifier quality scoring, and
domain-aware fluency filtering. We extract 4.5 billion pieces of
CoT(Chain-of-Thought) templates, named CCI4.0-M2-CoT. Differing from the
distillation of CoT from larger models, our proposed staged CoT extraction
exemplifies diverse reasoning patterns and significantly decreases the
possibility of hallucination. Empirical evaluations demonstrate that LLMs
pre-trained in CCI4.0 benefit from cleaner, more reliable training signals,
yielding consistent improvements in downstream tasks, especially in math and
code reflection tasks. Our results underscore the critical role of rigorous
data curation and human thinking templates in advancing LLM performance,
shedding some light on automatically processing pretraining corpora.