CCI4.0: Un conjunto de datos de preentrenamiento bilingüe para mejorar el razonamiento en modelos de lenguaje de gran escala
CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models
June 9, 2025
Autores: Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
cs.AI
Resumen
Presentamos CCI4.0, un conjunto de datos bilingüe de preentrenamiento a gran escala diseñado para ofrecer una calidad de datos superior y trayectorias de razonamiento diversas y similares a las humanas. CCI4.0 ocupa aproximadamente 35 TB de espacio en disco y consta de dos subconjuntos: CCI4.0-M2-Base y CCI4.0-M2-CoT. CCI4.0-M2-Base combina un corpus web chino cuidadosamente curado de 5.2 TB, un subconjunto en inglés de 22.5 TB de Nemotron-CC, y diversas fuentes de matemáticas, wiki, arxiv y código. Aunque estos datos provienen principalmente de conjuntos de datos bien procesados, los estándares de calidad en varios dominios son dinámicos y requieren una amplia experiencia y mano de obra experta para su procesamiento. Por ello, proponemos una novedosa pipeline que justifica la calidad de los datos principalmente basada en modelos a través de deduplicación en dos etapas, puntuación de calidad multiclasificador y filtrado de fluidez consciente del dominio. Extraemos 4.5 mil millones de plantillas de CoT (Cadena de Pensamiento), denominadas CCI4.0-M2-CoT. A diferencia de la destilación de CoT a partir de modelos más grandes, nuestra propuesta de extracción de CoT por etapas ejemplifica patrones de razonamiento diversos y reduce significativamente la posibilidad de alucinación. Las evaluaciones empíricas demuestran que los LLM preentrenados en CCI4.0 se benefician de señales de entrenamiento más limpias y confiables, obteniendo mejoras consistentes en tareas posteriores, especialmente en tareas de reflexión matemática y de código. Nuestros resultados subrayan el papel crítico de la curación rigurosa de datos y las plantillas de pensamiento humano en el avance del rendimiento de los LLM, arrojando algo de luz sobre el procesamiento automático de corpus de preentrenamiento.
English
We introduce CCI4.0, a large-scale bilingual pre-training dataset engineered
for superior data quality and diverse human-like reasoning trajectory. CCI4.0
occupies roughly 35 TB of disk space and comprises two sub-datasets:
CCI4.0-M2-Base and CCI4.0-M2-CoT. CCI4.0-M2-Base combines a 5.2 TB carefully
curated Chinese web corpus, a 22.5 TB English subset from Nemotron-CC, and
diverse sources from math, wiki, arxiv, and code. Although these data are
mostly sourced from well-processed datasets, the quality standards of various
domains are dynamic and require extensive expert experience and labor to
process. So, we propose a novel pipeline justifying data quality mainly based
on models through two-stage deduplication, multiclassifier quality scoring, and
domain-aware fluency filtering. We extract 4.5 billion pieces of
CoT(Chain-of-Thought) templates, named CCI4.0-M2-CoT. Differing from the
distillation of CoT from larger models, our proposed staged CoT extraction
exemplifies diverse reasoning patterns and significantly decreases the
possibility of hallucination. Empirical evaluations demonstrate that LLMs
pre-trained in CCI4.0 benefit from cleaner, more reliable training signals,
yielding consistent improvements in downstream tasks, especially in math and
code reflection tasks. Our results underscore the critical role of rigorous
data curation and human thinking templates in advancing LLM performance,
shedding some light on automatically processing pretraining corpora.