daVinci-LLM: 프리트레이닝의 과학을 향하여
daVinci-LLM:Towards the Science of Pretraining
March 28, 2026
저자: Yiwei Qin, Yixiu Liu, Tiantian Mi, Muhang Xie, Zhen Huang, Weiye Si, Pengrui Lu, Siyuan Feng, Xia Wu, Liming Liu, Ye Luo, Jinlong Hou, Qipeng Guo, Yu Qiao, Pengfei Liu
cs.AI
초록
기초 사전학습 단계는 모델의 능력 상한선을 결정하는데, 이는 사후 학습이 사전학습 중 확립된 능력 기반을 극복하기 어렵기 때문입니다. 그럼에도 불구하고 이 단계는 여전히 심각하게 충분히 탐구되지 않고 있습니다. 이러한 상황은 구조적 역설에서 비롯됩니다. 컴퓨팅 자원을 보유한 조직은 투명한 공개를 저해하는 상업적 압력 아래 운영되는 반면, 학술 기관은 연구 자유는 보유하지만 사전학습 규모의 컴퓨팅 자원이 부족합니다. daVinci-LLM은 이 미개척 교차점에 위치하여 산업 규모의 자원과 완전한 연구 자유를 결합하여 사전학습 과학을 발전시키고자 합니다. 우리는 개방성을 과학적 방법론으로 간주하는 완전 공개 패러다임을 채택하여 완전한 데이터 처리 파이프라인, 전체 학습 과정 및 체계적 탐색 결과를 공개합니다.
본 분야가 데이터 처리를 위한 체계적 방법론이 부족함을 인식하고, 우리는 필터링부터 합성에 이르는 원칙 기반 L0-L9 분류 체계인 Data Darwinism 프레임워크를 활용합니다. 우리는 기초 능력에서 추론 집약적 향상으로 점진적으로 전환하는 2단계 적응형 커리큘럼을 통해 8T 토큰에 걸쳐 무작위 초기화부터 3B 매개변수 모델을 학습합니다. 200개 이상의 통제된 애블레이션 실험을 통해 우리는 다음을 확인했습니다: 처리 깊이가 능력을 체계적으로 향상시켜, 이를 규모 확장과 함께 중요한 차원으로 정립함; 서로 다른 도메인이 상이한 포화 동역학을 나타내어 비율 조정부터 형식 전환에 이르는 적응형 전략이 필요함; 구성적 균형이 성능 붕괴를 방지하면서 표적 강화를 가능하게 함; 평가 프로토콜 선택이 사전학습 진전에 대한 이해를 어떻게 형성하는지.
완전한 탐색 과정을 공개함으로써, 우리는 학계가 우리의 발견과 체계적 방법론을 바탕으로 하여 사전학습 분야에 누적적인 과학적 지식을 형성할 수 있도록 합니다.
English
The foundational pretraining phase determines a model's capability ceiling, as post-training struggles to overcome capability foundations established during pretraining, yet it remains critically under-explored. This stems from a structural paradox: organizations with computational resources operate under commercial pressures that inhibit transparent disclosure, while academic institutions possess research freedom but lack pretraining-scale computational resources. daVinci-LLM occupies this unexplored intersection, combining industrial-scale resources with full research freedom to advance the science of pretraining. We adopt a fully-open paradigm that treats openness as scientific methodology, releasing complete data processing pipelines, full training processes, and systematic exploration results. Recognizing that the field lacks systematic methodology for data processing, we employ the Data Darwinism framework, a principled L0-L9 taxonomy from filtering to synthesis. We train a 3B-parameter model from random initialization across 8T tokens using a two-stage adaptive curriculum that progressively shifts from foundational capabilities to reasoning-intensive enhancement. Through 200+ controlled ablations, we establish that: processing depth systematically enhances capabilities, establishing it as a critical dimension alongside volume scaling; different domains exhibit distinct saturation dynamics, necessitating adaptive strategies from proportion adjustments to format shifts; compositional balance enables targeted intensification while preventing performance collapse; how evaluation protocol choices shape our understanding of pretraining progress. By releasing the complete exploration process, we enable the community to build upon our findings and systematic methodologies to form accumulative scientific knowledge in pretraining.