CCI4.0: Een tweetalige voor-trainingsdataset voor het verbeteren van redeneervaardigheden in grote taalmodellen
CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models
June 9, 2025
Auteurs: Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
cs.AI
Samenvatting
We introduceren CCI4.0, een grootschalige tweetalige voor-trainingsdataset ontworpen voor superieure data-kwaliteit en diverse mensachtige redeneertrajecten. CCI4.0 beslaat ongeveer 35 TB aan schijfruimte en bestaat uit twee sub-datasets: CCI4.0-M2-Base en CCI4.0-M2-CoT. CCI4.0-M2-Base combineert een zorgvuldig samengesteld Chinees webcorpus van 5,2 TB, een Engelse subset van 22,5 TB uit Nemotron-CC, en diverse bronnen uit wiskunde, wiki, arxiv en code. Hoewel deze data voornamelijk afkomstig zijn uit goed verwerkte datasets, zijn de kwaliteitsstandaarden van verschillende domeinen dynamisch en vereisen ze uitgebreide expertise en arbeid om te verwerken. Daarom stellen we een nieuwe pijplijn voor die de data-kwaliteit rechtvaardigt, voornamelijk gebaseerd op modellen via tweestaps deduplicatie, multiclassifier kwaliteitsscoring en domeinbewuste vlotheidsfiltering. We extraheren 4,5 miljard stukken CoT (Chain-of-Thought) sjablonen, genaamd CCI4.0-M2-CoT. In tegenstelling tot de destillatie van CoT uit grotere modellen, illustreert onze voorgestelde gefaseerde CoT-extractie diverse redeneerpatronen en vermindert het de mogelijkheid van hallucinatie aanzienlijk. Empirische evaluaties tonen aan dat LLM's die zijn voorgetraind op CCI4.0 profiteren van schonere, betrouwbaardere trainingssignalen, wat resulteert in consistente verbeteringen in downstream taken, vooral in wiskunde en codereflectietaken. Onze resultaten benadrukken de cruciale rol van rigoureuze datacuratie en menselijke denksjablonen bij het verbeteren van LLM-prestaties, wat enig inzicht biedt in het automatisch verwerken van voor-trainingscorpora.
English
We introduce CCI4.0, a large-scale bilingual pre-training dataset engineered
for superior data quality and diverse human-like reasoning trajectory. CCI4.0
occupies roughly 35 TB of disk space and comprises two sub-datasets:
CCI4.0-M2-Base and CCI4.0-M2-CoT. CCI4.0-M2-Base combines a 5.2 TB carefully
curated Chinese web corpus, a 22.5 TB English subset from Nemotron-CC, and
diverse sources from math, wiki, arxiv, and code. Although these data are
mostly sourced from well-processed datasets, the quality standards of various
domains are dynamic and require extensive expert experience and labor to
process. So, we propose a novel pipeline justifying data quality mainly based
on models through two-stage deduplication, multiclassifier quality scoring, and
domain-aware fluency filtering. We extract 4.5 billion pieces of
CoT(Chain-of-Thought) templates, named CCI4.0-M2-CoT. Differing from the
distillation of CoT from larger models, our proposed staged CoT extraction
exemplifies diverse reasoning patterns and significantly decreases the
possibility of hallucination. Empirical evaluations demonstrate that LLMs
pre-trained in CCI4.0 benefit from cleaner, more reliable training signals,
yielding consistent improvements in downstream tasks, especially in math and
code reflection tasks. Our results underscore the critical role of rigorous
data curation and human thinking templates in advancing LLM performance,
shedding some light on automatically processing pretraining corpora.