ChatPaper.aiChatPaper

데이터 다윈니즘 1부: 사전 학습을 위한 과학 데이터의 가치 활용

Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

February 8, 2026
저자: Yiwei Qin, Zhen Huang, Tiantian Mi, Weiye Si, Chenyang Zhou, Qipeng Guo, Siyuan Feng, Pengfei Liu
cs.AI

초록

데이터 품질이 파운데이션 모델의 성능을 결정하지만, 체계적인 처리 프레임워크는 부재한 실정이다. 본 연구에서는 데이터-모델 공진화(共進化)를 개념화하는 10단계 분류 체계(L0-L9)인 데이터 다윈니즘(Data Darwinism)을 소개한다. 즉, 고도화된 모델이 차세대 시스템을 위한 우수한 데이터를 생성한다는 것이다. 우리는 이를 과학 문헌 데이터에 적용하여 900B 토큰 규모의 Darwin-Science 코퍼스(L0-L5)를 구축하여 검증하였다. 원시 과학 텍스트에서 식별된 학습 가능성(learnability) 격차는 최첨단 LLM을 활용하여 추론 과정과 전문 용어를 명시화하는 L4(생성적 정제) 및 L5(인지적 완성) 단계를 통해 해소되었다. 엄격한 출처 추적을 위해 daVinci-origin-3B/7B 모델을 과학 콘텐츠를 배제한 상태에서 처음부터 사전 훈련하여 오염되지 않은 기준 모델을 구축하였다. 600B 토큰에 걸친 지속적 사전 훈련 후, Darwin-Science는 20개 이상의 벤치마크에서 기준 모델 대비 +2.12(3B) 및 +2.95(7B) 점수로 우수한 성능을 보였으며, 해당 도메인에 정렬된 과제에서는 +5.60 및 +8.40 점수까지 성능이 향상되었다. L5까지의 체계적 진행은 총 +1.36의 성능 향상을 가져와 상위 수준의 데이터 처리가 잠재된 데이터 가치를 활성화함을 확인하였다. 우리는 원칙에 기반한 공진화적 개발을 지원하기 위해 Darwin-Science 코퍼스와 daVinci-origin 모델을 공개한다.
English
Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.
PDF142February 18, 2026