ChatPaper.aiChatPaper

Darwinismo de los Datos Parte I: Desbloqueando el Valor de los Datos Científicos para el Pre-entrenamiento

Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

February 8, 2026
Autores: Yiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu
cs.AI

Resumen

La calidad de los datos determina el rendimiento de los modelos fundacionales, sin embargo, faltan marcos de procesamiento sistemáticos. Presentamos Data Darwinism, una taxonomía de diez niveles (L0-L9) que conceptualiza la coevolución datos-modelo: los modelos avanzados producen datos superiores para sistemas de próxima generación. Validamos esto en la literatura científica mediante la construcción de Darwin-Science, un corpus de 900B de tokens (L0-L5). Identificamos una brecha de capacidad de aprendizaje en el texto científico en bruto, que salvamos mediante los niveles L4 (Refinamiento Generativo) y L5 (Finalización Cognitiva) utilizando LLMs de vanguardia para explicitar el razonamiento y la terminología. Para garantizar una atribución rigurosa, preentrenamos desde cero los modelos daVinci-origin-3B/7B, excluyendo contenido científico para crear líneas base libres de contaminación. Tras 600B de tokens de preentrenamiento continuado, Darwin-Science supera a las líneas base en +2.12 (3B) y +2.95 (7B) puntos en más de 20 benchmarks, aumentando a +5.60 y +8.40 puntos en tareas alineadas con el dominio. La progresión sistemática hasta L5 produce una ganancia total de +1.36, lo que confirma que el procesamiento de nivel superior desbloquea el valor latente de los datos. Publicamos el corpus Darwin-Science y los modelos daVinci-origin para permitir un desarrollo coevolutivo y basado en principios.
English
Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.
PDF142February 18, 2026