CCI4.0: Ein zweisprachiges Vor-Trainings-Datensatz zur Verbesserung des logischen Denkens in großen Sprachmodellen
CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models
June 9, 2025
Autoren: Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
cs.AI
Zusammenfassung
Wir stellen CCI4.0 vor, einen groß angelegten bilingualen Vorverarbeitungsdatensatz, der für überragende Datenqualität und vielfältige, menschenähnliche Denkpfade entwickelt wurde. CCI4.0 beansprucht etwa 35 TB Speicherplatz und besteht aus zwei Unterdatensätzen: CCI4.0-M2-Base und CCI4.0-M2-CoT. CCI4.0-M2-Base kombiniert ein sorgfältig kuratiertes chinesisches Webkorpus von 5,2 TB, eine 22,5 TB große englische Teilmenge aus Nemotron-CC sowie diverse Quellen aus den Bereichen Mathematik, Wiki, Arxiv und Code. Obwohl diese Daten größtenteils aus gut aufbereiteten Datensätzen stammen, sind die Qualitätsstandards in verschiedenen Domänen dynamisch und erfordern umfangreiche Expertise und Arbeitsaufwand zur Verarbeitung. Daher schlagen wir eine neuartige Pipeline vor, die die Datenqualität hauptsächlich auf Basis von Modellen durch zweistufige Deduplizierung, Qualitätsbewertung mittels Multi-Klassifikatoren und domänenspezifische Flüssigkeitsfilterung sicherstellt. Wir extrahieren 4,5 Milliarden CoT (Chain-of-Thought)-Vorlagen, genannt CCI4.0-M2-CoT. Im Gegensatz zur Destillation von CoT aus größeren Modellen zeigt unsere vorgeschlagene gestufte CoT-Extraktion vielfältige Denkmuster auf und verringert die Wahrscheinlichkeit von Halluzinationen erheblich. Empirische Auswertungen zeigen, dass LLMs, die mit CCI4.0 vortrainiert wurden, von saubereren, zuverlässigeren Trainingssignalen profitieren und konsistente Verbesserungen in nachgelagerten Aufgaben, insbesondere in Mathematik- und Code-Reflexionsaufgaben, erzielen. Unsere Ergebnisse unterstreichen die entscheidende Rolle einer rigorosen Datenkuratierung und menschlicher Denkvorlagen für die Verbesserung der LLM-Leistung und geben Einblicke in die automatische Verarbeitung von Vorverarbeitungskorpora.
English
We introduce CCI4.0, a large-scale bilingual pre-training dataset engineered
for superior data quality and diverse human-like reasoning trajectory. CCI4.0
occupies roughly 35 TB of disk space and comprises two sub-datasets:
CCI4.0-M2-Base and CCI4.0-M2-CoT. CCI4.0-M2-Base combines a 5.2 TB carefully
curated Chinese web corpus, a 22.5 TB English subset from Nemotron-CC, and
diverse sources from math, wiki, arxiv, and code. Although these data are
mostly sourced from well-processed datasets, the quality standards of various
domains are dynamic and require extensive expert experience and labor to
process. So, we propose a novel pipeline justifying data quality mainly based
on models through two-stage deduplication, multiclassifier quality scoring, and
domain-aware fluency filtering. We extract 4.5 billion pieces of
CoT(Chain-of-Thought) templates, named CCI4.0-M2-CoT. Differing from the
distillation of CoT from larger models, our proposed staged CoT extraction
exemplifies diverse reasoning patterns and significantly decreases the
possibility of hallucination. Empirical evaluations demonstrate that LLMs
pre-trained in CCI4.0 benefit from cleaner, more reliable training signals,
yielding consistent improvements in downstream tasks, especially in math and
code reflection tasks. Our results underscore the critical role of rigorous
data curation and human thinking templates in advancing LLM performance,
shedding some light on automatically processing pretraining corpora.