daVinci-LLM: Rumo à Ciência do Pré-treinamento

Resumo

A fase fundamental de pré-treinamento determina o teto de capacidade de um modelo, uma vez que o pós-treinamento tem dificuldade em superar as bases de capacidade estabelecidas durante o pré-treinamento, no entanto, esta fase permanece criticamente subexplorada. Esta situação decorre de um paradoxo estrutural: organizações com recursos computacionais operam sob pressões comerciais que inibem a divulgação transparente, enquanto instituições académicas possuem liberdade de investigação mas carecem de recursos computacionais em escala de pré-treinamento. O daVinci-LLM ocupa esta interseção inexplorada, combinando recursos de escala industrial com plena liberdade de investigação para avançar a ciência do pré-treinamento. Adotamos um paradigma totalmente aberto que trata a abertura como metodologia científica, disponibilizando os *pipelines* completos de processamento de dados, os processos de treino integral e os resultados de exploração sistemática. Reconhecendo que a área carece de uma metodologia sistemática para o processamento de dados, empregamos o *framework* Data Darwinism, uma taxonomia principiada de L0 a L9 que vai da filtragem à síntese. Treinámos um modelo de 3B de parâmetros a partir de inicialização aleatória ao longo de 8T de *tokens*, utilizando um currículo adaptativo de dois estágios que progride gradualmente de capacidades fundamentais para um aprimoramento intensivo em raciocínio. Através de mais de 200 ablacões controladas, estabelecemos que: a profundidade do processamento aumenta sistematicamente as capacidades, estabelecendo-a como uma dimensão crítica a par da escala de volume; diferentes domínios exibem dinâmicas de saturação distintas, necessitando de estratégias adaptativas que vão desde ajustes de proporção até mudanças de formato; o equilíbrio composicional permite uma intensificação direcionada, evitando ao mesmo tempo o colapso de desempenho; e como as escolhas do protocolo de avaliação moldam a nossa compreensão do progresso do pré-treinamento. Ao disponibilizar o processo completo de exploração, permitimos que a comunidade construa sobre as nossas descobertas e metodologias sistemáticas para formar conhecimento científico acumulativo em pré-treinamento.

English

The foundational pretraining phase determines a model's capability ceiling, as post-training struggles to overcome capability foundations established during pretraining, yet it remains critically under-explored. This stems from a structural paradox: organizations with computational resources operate under commercial pressures that inhibit transparent disclosure, while academic institutions possess research freedom but lack pretraining-scale computational resources. daVinci-LLM occupies this unexplored intersection, combining industrial-scale resources with full research freedom to advance the science of pretraining. We adopt a fully-open paradigm that treats openness as scientific methodology, releasing complete data processing pipelines, full training processes, and systematic exploration results. Recognizing that the field lacks systematic methodology for data processing, we employ the Data Darwinism framework, a principled L0-L9 taxonomy from filtering to synthesis. We train a 3B-parameter model from random initialization across 8T tokens using a two-stage adaptive curriculum that progressively shifts from foundational capabilities to reasoning-intensive enhancement. Through 200+ controlled ablations, we establish that: processing depth systematically enhances capabilities, establishing it as a critical dimension alongside volume scaling; different domains exhibit distinct saturation dynamics, necessitating adaptive strategies from proportion adjustments to format shifts; compositional balance enables targeted intensification while preventing performance collapse; how evaluation protocol choices shape our understanding of pretraining progress. By releasing the complete exploration process, we enable the community to build upon our findings and systematic methodologies to form accumulative scientific knowledge in pretraining.

daVinci-LLM: Rumo à Ciência do Pré-treinamento

daVinci-LLM:Towards the Science of Pretraining

Resumo

Support