CLIMB:基于聚类的迭代数据混合自举语言模型预训练方法CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for
Language Model Pre-training
预训练数据集通常从网络内容中收集,缺乏固有的领域划分。例如,广泛使用的Common Crawl数据集并未包含明确的领域标签,而手动整理如The Pile这样的标注数据集则费时费力。因此,尽管优化预训练数据混合对提升预训练性能具有显著益处,但确定最佳预训练数据混合仍是一个具有挑战性的问题。为应对这些挑战,我们提出了基于聚类的迭代数据混合自举框架(CLIMB),这是一个在预训练环境中自动发现、评估并优化数据混合的框架。具体而言,CLIMB将大规模数据集嵌入并聚类于语义空间,随后利用较小的代理模型和预测器迭代搜索最优混合方案。当我们的1B模型在4000亿个token上持续训练并采用此混合方案时,其性能超越了当前最先进的Llama-3.2-1B模型2.0%。此外,我们观察到针对特定领域(如社会科学)进行优化,相比随机采样可带来5%的性能提升。最后,我们推出了ClimbLab,一个包含20个聚类、经过筛选的1.2万亿token语料库,作为研究平台;以及ClimbMix,一个紧凑而强大的4000亿token数据集,专为高效预训练设计,在同等token预算下展现出卓越性能。我们分析了最终的数据混合,阐明了最优数据混合的特征。我们的数据可在以下网址获取:https://research.nvidia.com/labs/lpr/climb/。