CCI4.0: Um Conjunto de Dados de Pré-treinamento Bilíngue para Aprimorar o Raciocínio em Modelos de Linguagem de Grande Escala

Resumo

Apresentamos o CCI4.0, um conjunto de dados de pré-treinamento bilíngue em grande escala, projetado para oferecer qualidade de dados superior e trajetórias de raciocínio diversas e humanizadas. O CCI4.0 ocupa aproximadamente 35 TB de espaço em disco e é composto por dois subconjuntos: CCI4.0-M2-Base e CCI4.0-M2-CoT. O CCI4.0-M2-Base combina um corpus chinês da web cuidadosamente curado de 5,2 TB, um subconjunto em inglês de 22,5 TB do Nemotron-CC e diversas fontes de matemática, wiki, arxiv e código. Embora esses dados sejam majoritariamente provenientes de conjuntos de dados bem processados, os padrões de qualidade de vários domínios são dinâmicos e exigem ampla experiência especializada e trabalho manual para serem processados. Portanto, propomos um pipeline inovador que justifica a qualidade dos dados principalmente com base em modelos, por meio de desduplicação em duas etapas, pontuação de qualidade multiclassificador e filtragem de fluência consciente do domínio. Extraímos 4,5 bilhões de modelos de CoT (Chain-of-Thought), denominados CCI4.0-M2-CoT. Diferente da destilação de CoT a partir de modelos maiores, nossa proposta de extração de CoT em etapas exemplifica padrões de raciocínio diversos e reduz significativamente a possibilidade de alucinação. Avaliações empíricas demonstram que LLMs pré-treinados no CCI4.0 se beneficiam de sinais de treinamento mais limpos e confiáveis, resultando em melhorias consistentes em tarefas subsequentes, especialmente em matemática e tarefas de reflexão de código. Nossos resultados destacam o papel crítico da curadoria rigorosa de dados e dos modelos de pensamento humano no avanço do desempenho de LLMs, lançando alguma luz sobre o processamento automático de corpora de pré-treinamento.

English

We introduce CCI4.0, a large-scale bilingual pre-training dataset engineered for superior data quality and diverse human-like reasoning trajectory. CCI4.0 occupies roughly 35 TB of disk space and comprises two sub-datasets: CCI4.0-M2-Base and CCI4.0-M2-CoT. CCI4.0-M2-Base combines a 5.2 TB carefully curated Chinese web corpus, a 22.5 TB English subset from Nemotron-CC, and diverse sources from math, wiki, arxiv, and code. Although these data are mostly sourced from well-processed datasets, the quality standards of various domains are dynamic and require extensive expert experience and labor to process. So, we propose a novel pipeline justifying data quality mainly based on models through two-stage deduplication, multiclassifier quality scoring, and domain-aware fluency filtering. We extract 4.5 billion pieces of CoT(Chain-of-Thought) templates, named CCI4.0-M2-CoT. Differing from the distillation of CoT from larger models, our proposed staged CoT extraction exemplifies diverse reasoning patterns and significantly decreases the possibility of hallucination. Empirical evaluations demonstrate that LLMs pre-trained in CCI4.0 benefit from cleaner, more reliable training signals, yielding consistent improvements in downstream tasks, especially in math and code reflection tasks. Our results underscore the critical role of rigorous data curation and human thinking templates in advancing LLM performance, shedding some light on automatically processing pretraining corpora.

CCI4.0: Um Conjunto de Dados de Pré-treinamento Bilíngue para Aprimorar o Raciocínio em Modelos de Linguagem de Grande Escala

CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models

Resumo

Support