Darwinisme des données, partie I : Libérer la valeur des données scientifiques pour le pré-entraînement
Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training
February 8, 2026
papers.authors: Yiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu
cs.AI
papers.abstract
La qualité des données détermine les performances des modèles de base, mais il manque des cadres de traitement systématiques. Nous introduisons Data Darwinism, une taxonomie à dix niveaux (L0-L9) qui conceptualise la coévolution données-modèles : les modèles avancés produisent des données supérieures pour les systèmes de nouvelle génération. Nous validons cela sur la littérature scientifique en construisant Darwin-Science, un corpus de 900 milliards de tokens (L0-L5). Nous identifions un écart d'apprenabilité dans le texte scientifique brut, que nous comblons via les niveaux L4 (Raffinement génératif) et L5 (Complétion cognitive) en utilisant des LLM de pointe pour expliciter le raisonnement et la terminologie.
Pour garantir une attribution rigoureuse, nous avons pré-entraîné les modèles daVinci-origin-3B/7B à partir de zéro, en excluant le contenu scientifique pour créer des bases de référence non contaminées. Après 600 milliards de tokens de pré-entraînement continu, Darwin-Science surpasse les bases de référence de +2,12 (3B) et +2,95 (7B) points sur plus de 20 benchmarks, atteignant +5,60 et +8,40 points sur les tâches alignées au domaine. La progression systématique vers le niveau L5 produit un gain total de +1,36, confirmant que le traitement de niveau supérieur libère la valeur latente des données. Nous publions le corpus Darwin-Science et les modèles daVinci-origin pour permettre un développement coévolutif et fondé sur des principes.
English
Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology.
To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.