データ混合の効率化:言語モデル事前学習のための二変数スケーリング則
Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining
May 23, 2024
著者: Ce Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding
cs.AI
要旨
大規模言語モデルは、多様なソースから得られたデータの活用により、卓越した汎化能力を示す。しかし、この多様なデータを統合する従来の手法は、理論的根拠に欠けたヒューリスティックなスキームに大きく依存している。本研究では、データ混合のための低コストな代理指標に基づく戦略を調査することで、これらの制約に取り組み、データキュレーションを効率化してトレーニング効率を向上させることを目指す。具体的には、データ量と混合比率の二変量スケーリング挙動を正確にモデル化する統一的なスケーリング則「BiMix」を提案する。体系的な実験を行い、BiMixの予測力と基本原理に関する実証的証拠を提供する。特に、エントロピー駆動型のトレーニング不要なデータ混合が、よりリソース集約的な手法と同等またはそれ以上の性能を達成できることを明らかにした。我々の定量的な知見が、コスト効率の良い言語モデリングにおけるさらなる適切な研究開発に光を当てることを期待する。
English
Large language models exhibit exceptional generalization capabilities,
primarily attributed to the utilization of diversely sourced data. However,
conventional practices in integrating this diverse data heavily rely on
heuristic schemes, lacking theoretical guidance. This research tackles these
limitations by investigating strategies based on low-cost proxies for data
mixtures, with the aim of streamlining data curation to enhance training
efficiency. Specifically, we propose a unified scaling law, termed BiMix, which
accurately models the bivariate scaling behaviors of both data quantity and
mixing proportions. We conduct systematic experiments and provide empirical
evidence for the predictive power and fundamental principles of BiMix. Notably,
our findings reveal that entropy-driven training-free data mixtures can achieve
comparable or even better performance than more resource-intensive methods. We
hope that our quantitative insights can shed light on further judicious
research and development in cost-effective language modeling.Summary
AI-Generated Summary