CCI4.0: Een tweetalige voor-trainingsdataset voor het verbeteren van redeneervaardigheden in grote taalmodellen

Samenvatting

We introduceren CCI4.0, een grootschalige tweetalige voor-trainingsdataset ontworpen voor superieure data-kwaliteit en diverse mensachtige redeneertrajecten. CCI4.0 beslaat ongeveer 35 TB aan schijfruimte en bestaat uit twee sub-datasets: CCI4.0-M2-Base en CCI4.0-M2-CoT. CCI4.0-M2-Base combineert een zorgvuldig samengesteld Chinees webcorpus van 5,2 TB, een Engelse subset van 22,5 TB uit Nemotron-CC, en diverse bronnen uit wiskunde, wiki, arxiv en code. Hoewel deze data voornamelijk afkomstig zijn uit goed verwerkte datasets, zijn de kwaliteitsstandaarden van verschillende domeinen dynamisch en vereisen ze uitgebreide expertise en arbeid om te verwerken. Daarom stellen we een nieuwe pijplijn voor die de data-kwaliteit rechtvaardigt, voornamelijk gebaseerd op modellen via tweestaps deduplicatie, multiclassifier kwaliteitsscoring en domeinbewuste vlotheidsfiltering. We extraheren 4,5 miljard stukken CoT (Chain-of-Thought) sjablonen, genaamd CCI4.0-M2-CoT. In tegenstelling tot de destillatie van CoT uit grotere modellen, illustreert onze voorgestelde gefaseerde CoT-extractie diverse redeneerpatronen en vermindert het de mogelijkheid van hallucinatie aanzienlijk. Empirische evaluaties tonen aan dat LLM's die zijn voorgetraind op CCI4.0 profiteren van schonere, betrouwbaardere trainingssignalen, wat resulteert in consistente verbeteringen in downstream taken, vooral in wiskunde en codereflectietaken. Onze resultaten benadrukken de cruciale rol van rigoureuze datacuratie en menselijke denksjablonen bij het verbeteren van LLM-prestaties, wat enig inzicht biedt in het automatisch verwerken van voor-trainingscorpora.

English

We introduce CCI4.0, a large-scale bilingual pre-training dataset engineered for superior data quality and diverse human-like reasoning trajectory. CCI4.0 occupies roughly 35 TB of disk space and comprises two sub-datasets: CCI4.0-M2-Base and CCI4.0-M2-CoT. CCI4.0-M2-Base combines a 5.2 TB carefully curated Chinese web corpus, a 22.5 TB English subset from Nemotron-CC, and diverse sources from math, wiki, arxiv, and code. Although these data are mostly sourced from well-processed datasets, the quality standards of various domains are dynamic and require extensive expert experience and labor to process. So, we propose a novel pipeline justifying data quality mainly based on models through two-stage deduplication, multiclassifier quality scoring, and domain-aware fluency filtering. We extract 4.5 billion pieces of CoT(Chain-of-Thought) templates, named CCI4.0-M2-CoT. Differing from the distillation of CoT from larger models, our proposed staged CoT extraction exemplifies diverse reasoning patterns and significantly decreases the possibility of hallucination. Empirical evaluations demonstrate that LLMs pre-trained in CCI4.0 benefit from cleaner, more reliable training signals, yielding consistent improvements in downstream tasks, especially in math and code reflection tasks. Our results underscore the critical role of rigorous data curation and human thinking templates in advancing LLM performance, shedding some light on automatically processing pretraining corpora.

CCI4.0: Een tweetalige voor-trainingsdataset voor het verbeteren van redeneervaardigheden in grote taalmodellen

CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models

Samenvatting

Support