ChatPaper.aiChatPaper

CCI4.0: Un dataset di pre-addestramento bilingue per potenziare il ragionamento nei grandi modelli linguistici

CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models

June 9, 2025
Autori: Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
cs.AI

Abstract

Presentiamo CCI4.0, un ampio dataset bilingue di pre-addestramento progettato per garantire una qualità dei dati superiore e una traiettoria di ragionamento umano diversificata. CCI4.0 occupa circa 35 TB di spazio su disco ed è composto da due sotto-dataset: CCI4.0-M2-Base e CCI4.0-M2-CoT. CCI4.0-M2-Base combina un corpus web cinese curato con cura di 5,2 TB, un sottoinsieme inglese di 22,5 TB proveniente da Nemotron-CC, e fonti diverse da matematica, wiki, arxiv e codice. Sebbene questi dati siano per lo più provenienti da dataset ben processati, gli standard di qualità di vari domini sono dinamici e richiedono un'estesa esperienza e lavoro esperto per essere elaborati. Pertanto, proponiamo una nuova pipeline che giustifica la qualità dei dati principalmente basata su modelli attraverso una deduplicazione in due fasi, un punteggio di qualità multiclassificatore e un filtraggio di fluidità consapevole del dominio. Estraiamo 4,5 miliardi di modelli CoT (Chain-of-Thought), denominati CCI4.0-M2-CoT. Diversamente dalla distillazione di CoT da modelli più grandi, la nostra proposta di estrazione CoT in fasi esemplifica modelli di ragionamento diversificati e riduce significativamente la possibilità di allucinazione. Le valutazioni empiriche dimostrano che i modelli linguistici pre-addestrati su CCI4.0 beneficiano di segnali di addestramento più puliti e affidabili, ottenendo miglioramenti consistenti nei task downstream, specialmente in matematica e nei task di riflessione sul codice. I nostri risultati sottolineano il ruolo cruciale di una rigorosa cura dei dati e di modelli di pensiero umano nel migliorare le prestazioni dei modelli linguistici, gettando luce sul processo automatico di elaborazione dei corpora di pre-addestramento.
English
We introduce CCI4.0, a large-scale bilingual pre-training dataset engineered for superior data quality and diverse human-like reasoning trajectory. CCI4.0 occupies roughly 35 TB of disk space and comprises two sub-datasets: CCI4.0-M2-Base and CCI4.0-M2-CoT. CCI4.0-M2-Base combines a 5.2 TB carefully curated Chinese web corpus, a 22.5 TB English subset from Nemotron-CC, and diverse sources from math, wiki, arxiv, and code. Although these data are mostly sourced from well-processed datasets, the quality standards of various domains are dynamic and require extensive expert experience and labor to process. So, we propose a novel pipeline justifying data quality mainly based on models through two-stage deduplication, multiclassifier quality scoring, and domain-aware fluency filtering. We extract 4.5 billion pieces of CoT(Chain-of-Thought) templates, named CCI4.0-M2-CoT. Differing from the distillation of CoT from larger models, our proposed staged CoT extraction exemplifies diverse reasoning patterns and significantly decreases the possibility of hallucination. Empirical evaluations demonstrate that LLMs pre-trained in CCI4.0 benefit from cleaner, more reliable training signals, yielding consistent improvements in downstream tasks, especially in math and code reflection tasks. Our results underscore the critical role of rigorous data curation and human thinking templates in advancing LLM performance, shedding some light on automatically processing pretraining corpora.
PDF92June 10, 2025