Darwinismo dei Dati Parte I: Sbloccare il Valore dei Dati Scientifici per il Pre-Addestramento

Abstract

La qualità dei dati determina le prestazioni dei modelli di base, ma mancano framework di elaborazione sistematici. Introduciamo Data Darwinism, una tassonomia a dieci livelli (L0-L9) che concettualizza la co-evoluzione dati-modello: i modelli avanzati producono dati superiori per i sistemi di prossima generazione. Convalidiamo questo approccio sulla letteratura scientifica costruendo Darwin-Science, un corpus di 900 miliardi di token (L0-L5). Identifichiamo un divario di apprendibilità nel testo scientifico grezzo, che colmiamo tramite L4 (Affinamento Generativo) e L5 (Completamento Cognitivo) utilizzando LLM all'avanguardia per esplicitare ragionamenti e terminologia. Per garantire un'attribuzione rigorosa, abbiamo pre-addestrato da zero i modelli daVinci-origin-3B/7B, escludendo contenuti scientifici per creare baseline non contaminate. Dopo 600 miliardi di token di pre-training continuato, Darwin-Science supera le baseline di +2,12 (3B) e +2,95 (7B) punti su oltre 20 benchmark, arrivando a +5,60 e +8,40 punti su compiti allineati al dominio. La progressione sistematica a L5 produce un guadagno totale di +1,36, confermando che l'elaborazione a livello superiore sblocca il valore latente dei dati. Rilasciamo il corpus Darwin-Science e i modelli daVinci-origin per consentire uno sviluppo co-evolutivo e basato su principi.

English

Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.

Darwinismo dei Dati Parte I: Sbloccare il Valore dei Dati Scientifici per il Pre-Addestramento

Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

Abstract

Support