ChatPaper.aiChatPaper

OPUS: 대규모 언어 모델 사전 학습의 모든 반복에서 효율적이고 원칙적인 데이터 선택 방향

OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

February 5, 2026
저자: Shaobo Wang, Xuan Ouyang, Tianyi Xu, Yuzheng Hu, Jialin Liu, Guo Chen, Tianyu Zhang, Junhao Zheng, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang
cs.AI

초록

고품질 공개 텍스트가 고갈되는 이른바 '데이터 벽' 현상에 직면하면서, 사전 학습은 더 많은 토큰에서 더 나은 토큰으로 패러다임이 전환되고 있습니다. 그러나 기존 방법들은 훈련 동역학을 무시하는 휴리스틱 정적 필터에 의존하거나, 원시 그래디언트에 기반한 동적이지만 옵티마이저-불가지론적 기준을 사용합니다. 본 연구에서는 옵티마이저가 유도한 업데이트 공간에서 유용성을 정의하는 동적 데이터 선택 프레임워크인 OPUS(Optimizer-induced Projected Utility Selection)를 제안합니다. OPUS는 현대적 옵티마이저에 의해 형성된 후보 데이터의 효과적 업데이트를 안정적인 인-분포 프록시에서 도출된 목표 방향으로 투영하여 점수를 매깁니다. 확장성을 보장하기 위해 계산 효율을 위한 CountSketch 기반 Ghost 기법과 데이터 다양성을 위한 Boltzmann 샘플링을 적용하여 단 4.7%의 추가 계산 오버헤드만 발생시킵니다. OPUS는 다양한 코퍼스, 품질 계층, 옵티마이저, 모델 규모에서 뛰어난 성과를 거듭습니다. FineWeb 및 FineWeb-Edu의 30B 토큰으로 GPT-2 Large/XL을 사전 학습할 때, OPUS는 산업 수준의 베이스라인과 200B 토큰 전체 학습을 능가하는 성능을 보여줍니다. 나아가 산업 수준 정적 필터와 결합 시, 낮은 품질의 데이터에서도 사전 학습 효율을 추가로 향상시킵니다. 또한 SciencePedia에서 Qwen3-8B-Base의 지속 사전 학습 시, OPUS는 3B 토큰 전체 학습 대비 단 0.5B 토큰만으로도 우수한 성능을 달성하여 특화된 도메인에서의 상당한 데이터 효율성 향상을 입증합니다.
English
As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.
PDF2792February 12, 2026