CCI4.0: Um Conjunto de Dados de Pré-treinamento Bilíngue para Aprimorar o Raciocínio em Modelos de Linguagem de Grande Escala
CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models
June 9, 2025
Autores: Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
cs.AI
Resumo
Apresentamos o CCI4.0, um conjunto de dados de pré-treinamento bilíngue em grande escala, projetado para oferecer qualidade de dados superior e trajetórias de raciocínio diversas e humanizadas. O CCI4.0 ocupa aproximadamente 35 TB de espaço em disco e é composto por dois subconjuntos: CCI4.0-M2-Base e CCI4.0-M2-CoT. O CCI4.0-M2-Base combina um corpus chinês da web cuidadosamente curado de 5,2 TB, um subconjunto em inglês de 22,5 TB do Nemotron-CC e diversas fontes de matemática, wiki, arxiv e código. Embora esses dados sejam majoritariamente provenientes de conjuntos de dados bem processados, os padrões de qualidade de vários domínios são dinâmicos e exigem ampla experiência especializada e trabalho manual para serem processados. Portanto, propomos um pipeline inovador que justifica a qualidade dos dados principalmente com base em modelos, por meio de desduplicação em duas etapas, pontuação de qualidade multiclassificador e filtragem de fluência consciente do domínio. Extraímos 4,5 bilhões de modelos de CoT (Chain-of-Thought), denominados CCI4.0-M2-CoT. Diferente da destilação de CoT a partir de modelos maiores, nossa proposta de extração de CoT em etapas exemplifica padrões de raciocínio diversos e reduz significativamente a possibilidade de alucinação. Avaliações empíricas demonstram que LLMs pré-treinados no CCI4.0 se beneficiam de sinais de treinamento mais limpos e confiáveis, resultando em melhorias consistentes em tarefas subsequentes, especialmente em matemática e tarefas de reflexão de código. Nossos resultados destacam o papel crítico da curadoria rigorosa de dados e dos modelos de pensamento humano no avanço do desempenho de LLMs, lançando alguma luz sobre o processamento automático de corpora de pré-treinamento.
English
We introduce CCI4.0, a large-scale bilingual pre-training dataset engineered
for superior data quality and diverse human-like reasoning trajectory. CCI4.0
occupies roughly 35 TB of disk space and comprises two sub-datasets:
CCI4.0-M2-Base and CCI4.0-M2-CoT. CCI4.0-M2-Base combines a 5.2 TB carefully
curated Chinese web corpus, a 22.5 TB English subset from Nemotron-CC, and
diverse sources from math, wiki, arxiv, and code. Although these data are
mostly sourced from well-processed datasets, the quality standards of various
domains are dynamic and require extensive expert experience and labor to
process. So, we propose a novel pipeline justifying data quality mainly based
on models through two-stage deduplication, multiclassifier quality scoring, and
domain-aware fluency filtering. We extract 4.5 billion pieces of
CoT(Chain-of-Thought) templates, named CCI4.0-M2-CoT. Differing from the
distillation of CoT from larger models, our proposed staged CoT extraction
exemplifies diverse reasoning patterns and significantly decreases the
possibility of hallucination. Empirical evaluations demonstrate that LLMs
pre-trained in CCI4.0 benefit from cleaner, more reliable training signals,
yielding consistent improvements in downstream tasks, especially in math and
code reflection tasks. Our results underscore the critical role of rigorous
data curation and human thinking templates in advancing LLM performance,
shedding some light on automatically processing pretraining corpora.