データ・ダーウィニズム 第一部:事前学習のための科学的データの価値解放
Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training
February 8, 2026
著者: Yiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu
cs.AI
要旨
データ品質が基盤モデルの性能を決定するにも関わらず、体系的な処理フレームワークは不足している。本研究では、データとモデルの共進化を概念化する10段階の分類体系(L0-L9)である「Data Darwinism」を提案する。先進的なモデルが次世代システムのための優れたデータを生成するという考え方に基づく。これを科学文献に適用し、900Bトークンのコーパス「Darwin-Science」(L0-L5)を構築して検証した。生の科学テキストには学習可能性のギャップが存在することを確認し、L4(生成的洗練)とL5(認知的完成)において最先端LLMを用いて推論過程と専門用語を明示化することでこのギャップを解消した。
厳密な帰属分析を確保するため、科学コンテンツを除外した汚染フリーベースラインとして、daVinci-origin-3B/7Bモデルをスクラッチから事前学習した。600Bトークンの継続事前学習後、Darwin-Scienceは20以上のベンチマークでベースラインを+2.12(3B)および+2.95(7B)ポイント上回り、ドメイン整合タスクでは+5.60および+8.40ポイントまで差が拡大した。L5への体系的な進行は合計+1.36の性能向上をもたらし、高次処理がデータの潜在価値を解放することを確認した。原理に基づいた共進化的開発を可能にするため、Darwin-ScienceコーパスとdaVinci-originモデルを公開する。
English
Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology.
To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.