daVinci-LLM: Hacia la Ciencia del Pretraining

Resumen

La fase de pretraining fundacional determina el techo de capacidad de un modelo, ya que el entrenamiento posterior lucha por superar las bases de capacidad establecidas durante el pretraining, y sin embargo, sigue estando críticamente poco explorada. Esto surge de una paradoja estructural: las organizaciones con recursos computacionales operan bajo presiones comerciales que inhiben la divulgación transparente, mientras que las instituciones académicas poseen libertad de investigación pero carecen de recursos computacionales a escala de pretraining. daVinci-LLM ocupa esta intersección inexplorada, combinando recursos a escala industrial con plena libertad de investigación para avanzar en la ciencia del pretraining. Adoptamos un paradigma completamente abierto que trata la apertura como metodología científica, liberando las canalizaciones completas de procesamiento de datos, los procesos de entrenamiento completos y los resultados de exploración sistemática. Reconociendo que el campo carece de una metodología sistemática para el procesamiento de datos, empleamos el marco Darwinismo de Datos, una taxonomía fundamentada de L0 a L9 que va desde el filtrado hasta la síntesis. Entrenamos un modelo de 3B parámetros desde una inicialización aleatoria a lo largo de 8 billones de tokens utilizando un currículum adaptativo de dos etapas que cambia progresivamente de capacidades fundamentales a una mejora intensiva en razonamiento. A través de más de 200 ablaciones controladas, establecemos que: la profundidad del procesamiento mejora sistemáticamente las capacidades, estableciéndola como una dimensión crítica junto con el escalado de volumen; diferentes dominios exhiben dinámicas de saturación distintas, lo que requiere estrategias adaptativas que van desde ajustes de proporción hasta cambios de formato; el equilibrio composicional permite una intensificación dirigida mientras previene el colapso del rendimiento; y cómo las elecciones del protocolo de evaluación moldean nuestra comprensión del progreso del pretraining. Al liberar el proceso de exploración completo, permitimos a la comunidad construir sobre nuestros hallazgos y metodologías sistemáticas para formar conocimiento científico acumulativo en pretraining.

English

The foundational pretraining phase determines a model's capability ceiling, as post-training struggles to overcome capability foundations established during pretraining, yet it remains critically under-explored. This stems from a structural paradox: organizations with computational resources operate under commercial pressures that inhibit transparent disclosure, while academic institutions possess research freedom but lack pretraining-scale computational resources. daVinci-LLM occupies this unexplored intersection, combining industrial-scale resources with full research freedom to advance the science of pretraining. We adopt a fully-open paradigm that treats openness as scientific methodology, releasing complete data processing pipelines, full training processes, and systematic exploration results. Recognizing that the field lacks systematic methodology for data processing, we employ the Data Darwinism framework, a principled L0-L9 taxonomy from filtering to synthesis. We train a 3B-parameter model from random initialization across 8T tokens using a two-stage adaptive curriculum that progressively shifts from foundational capabilities to reasoning-intensive enhancement. Through 200+ controlled ablations, we establish that: processing depth systematically enhances capabilities, establishing it as a critical dimension alongside volume scaling; different domains exhibit distinct saturation dynamics, necessitating adaptive strategies from proportion adjustments to format shifts; compositional balance enables targeted intensification while preventing performance collapse; how evaluation protocol choices shape our understanding of pretraining progress. By releasing the complete exploration process, we enable the community to build upon our findings and systematic methodologies to form accumulative scientific knowledge in pretraining.

daVinci-LLM: Hacia la Ciencia del Pretraining

daVinci-LLM:Towards the Science of Pretraining

Resumen

Support