Daten-Darwinismus Teil I: Die Erschließung des Werts wissenschaftlicher Daten für Pre-training
Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training
February 8, 2026
papers.authors: Yiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu
cs.AI
papers.abstract
Die Datenqualität bestimmt die Leistung von Fundamentalmodellen, doch es mangelt an systematischen Verarbeitungsrahmen. Wir stellen Data Darwinism vor, eine zehnstufige Taxonomie (L0-L9), die die Ko-Evolution von Daten und Modellen konzeptualisiert: fortgeschrittene Modelle erzeugen überlegene Daten für Systeme der nächsten Generation. Wir validieren dies an wissenschaftlicher Literatur durch die Erstellung von Darwin-Science, einem Korpus mit 900 Milliarden Tokens (L0-L5). Wir identifizieren eine Erlernbarkeitslücke in Rohtexten wissenschaftlicher Literatur, die wir durch L4 (Generative Verfeinerung) und L5 (Kognitive Vervollständigung) mit modernsten LLMs überbrücken, um Argumentationsgänge und Terminologie zu explizieren.
Um eine rigorose Zuschreibung zu gewährleisten, pretrainierten wir daVinci-origin-3B/7B-Modelle von Grund auf, wobei wissenschaftliche Inhalte ausgeschlossen wurden, um kontaminationsfreie Baseline-Modelle zu schaffen. Nach 600 Milliarden Tokens weiteren Pre-Trainings übertrifft Darwin-Science die Baseline-Modelle um +2,12 (3B) bzw. +2,95 (7B) Punkte über 20+ Benchmarks hinweg und steigt auf +5,60 bzw. +8,40 Punkte bei domänenalignierten Aufgaben. Der systematische Fortschritt zu L5 erzielt einen Gesamtgewinn von +1,36 Punkten, was bestätigt, dass höherwertige Verarbeitung latenten Datenwert erschließt. Wir veröffentlichen den Darwin-Science-Korpus und die daVinci-origin-Modelle, um eine prinzipienbasierte, ko-evolutionäre Entwicklung zu ermöglichen.
English
Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology.
To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.