Darwinismo de Dados Parte I: Desbloqueando o Valor dos Dados Científicos para o Pré-treinamento

Resumo

A qualidade dos dados determina o desempenho dos modelos de fundação, no entanto, faltam estruturas de processamento sistemáticas. Apresentamos o Data Darwinism, uma taxonomia de dez níveis (L0-L9) que conceptualiza a co-evolução dados-modelo: modelos avançados produzem dados superiores para sistemas de próxima geração. Validamos isto na literatura científica construindo o Darwin-Science, um *corpus* de 900 mil milhões de tokens (L0-L5). Identificamos uma lacuna de aprendibilidade no texto científico bruto, que superamos através do L4 (Refinamento Generativo) e L5 (Conclusão Cognitiva) usando LLMs de vanguarda para explicitar o raciocínio e a terminologia. Para garantir uma atribuição rigorosa, pré-treinámos os modelos daVinci-origin-3B/7B a partir do zero, excluindo conteúdo científico para criar linhas de base livres de contaminação. Após 600 mil milhões de tokens de pré-treinamento contínuo, o Darwin-Science supera as linhas de base em +2,12 (3B) e +2,95 (7B) pontos em mais de 20 *benchmarks*, subindo para +5,60 e +8,40 pontos em tarefas alinhadas com o domínio. A progressão sistemática para o L5 produz um ganho total de +1,36, confirmando que o processamento de nível superior liberta o valor latente dos dados. Disponibilizamos o *corpus* Darwin-Science e os modelos daVinci-origin para permitir um desenvolvimento co-evolutivo e baseado em princípios.

English

Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.

Darwinismo de Dados Parte I: Desbloqueando o Valor dos Dados Científicos para o Pré-treinamento

Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

Resumo

Support