ChatPaper.aiChatPaper

CCI4.0 : Un ensemble de données de prétraitement bilingue pour améliorer le raisonnement dans les grands modèles de langage

CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models

June 9, 2025
Auteurs: Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
cs.AI

Résumé

Nous présentons CCI4.0, un jeu de données bilingue à grande échelle conçu pour une qualité de données supérieure et une trajectoire de raisonnement diversifiée et proche de celle des humains. CCI4.0 occupe environ 35 To d’espace disque et comprend deux sous-ensembles de données : CCI4.0-M2-Base et CCI4.0-M2-CoT. CCI4.0-M2-Base combine un corpus web chinois soigneusement sélectionné de 5,2 To, un sous-ensemble anglais de 22,5 To issu de Nemotron-CC, ainsi que diverses sources provenant des domaines des mathématiques, des wikis, d’arXiv et du code. Bien que ces données proviennent principalement de jeux de données bien traités, les normes de qualité varient selon les domaines et nécessitent une expertise approfondie et un travail important pour être traitées. Ainsi, nous proposons une nouvelle pipeline justifiant la qualité des données principalement basée sur des modèles, à travers une déduplication en deux étapes, un score de qualité multiclasse et un filtrage de fluidité adapté au domaine. Nous extrayons 4,5 milliards de modèles de CoT (Chaîne de Pensée), nommés CCI4.0-M2-CoT. Contrairement à la distillation de CoT à partir de modèles plus grands, notre méthode d’extraction de CoT par étapes illustre des schémas de raisonnement diversifiés et réduit significativement les risques d’hallucination. Les évaluations empiriques démontrent que les modèles de langage pré-entraînés sur CCI4.0 bénéficient de signaux d’entraînement plus propres et plus fiables, entraînant des améliorations constantes dans les tâches en aval, en particulier dans les tâches de réflexion mathématique et de code. Nos résultats soulignent le rôle crucial d’une curation rigoureuse des données et des modèles de pensée humaine dans l’amélioration des performances des modèles de langage, éclairant ainsi certaines pistes pour le traitement automatique des corpus de pré-entraînement.
English
We introduce CCI4.0, a large-scale bilingual pre-training dataset engineered for superior data quality and diverse human-like reasoning trajectory. CCI4.0 occupies roughly 35 TB of disk space and comprises two sub-datasets: CCI4.0-M2-Base and CCI4.0-M2-CoT. CCI4.0-M2-Base combines a 5.2 TB carefully curated Chinese web corpus, a 22.5 TB English subset from Nemotron-CC, and diverse sources from math, wiki, arxiv, and code. Although these data are mostly sourced from well-processed datasets, the quality standards of various domains are dynamic and require extensive expert experience and labor to process. So, we propose a novel pipeline justifying data quality mainly based on models through two-stage deduplication, multiclassifier quality scoring, and domain-aware fluency filtering. We extract 4.5 billion pieces of CoT(Chain-of-Thought) templates, named CCI4.0-M2-CoT. Differing from the distillation of CoT from larger models, our proposed staged CoT extraction exemplifies diverse reasoning patterns and significantly decreases the possibility of hallucination. Empirical evaluations demonstrate that LLMs pre-trained in CCI4.0 benefit from cleaner, more reliable training signals, yielding consistent improvements in downstream tasks, especially in math and code reflection tasks. Our results underscore the critical role of rigorous data curation and human thinking templates in advancing LLM performance, shedding some light on automatically processing pretraining corpora.
PDF82June 10, 2025