Эффективное смешивание данных: Бивариативный закон масштабирования для предварительного обучения языковой модели
Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining
May 23, 2024
Авторы: Ce Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding
cs.AI
Аннотация
Большие языковые модели обладают исключительными способностями к обобщению, в основном благодаря использованию разнообразных источников данных. Однако традиционные практики интеграции этого разнообразного материала тесно связаны с эвристическими схемами, лишенными теоретического руководства. Настоящее исследование решает эти ограничения, исследуя стратегии на основе недорогих замен для смесей данных с целью оптимизации курирования данных для улучшения эффективности обучения. Конкретно, мы предлагаем единую закономерность масштабирования, названную BiMix, которая точно моделирует бивариантное поведение масштабирования как количества данных, так и пропорций смешивания. Мы проводим систематические эксперименты и предоставляем эмпирические доказательства предсказательной силы и фундаментальных принципов BiMix. Особенно наши результаты показывают, что смеси данных, основанные на энтропийном подходе и не требующие обучения, могут достичь сравнимой или даже лучшей производительности, чем более ресурсоемкие методы. Мы надеемся, что наши количественные исследования могут пролить свет на дальнейшие разумные исследования и разработки в области экономичного языкового моделирования.
English
Large language models exhibit exceptional generalization capabilities,
primarily attributed to the utilization of diversely sourced data. However,
conventional practices in integrating this diverse data heavily rely on
heuristic schemes, lacking theoretical guidance. This research tackles these
limitations by investigating strategies based on low-cost proxies for data
mixtures, with the aim of streamlining data curation to enhance training
efficiency. Specifically, we propose a unified scaling law, termed BiMix, which
accurately models the bivariate scaling behaviors of both data quantity and
mixing proportions. We conduct systematic experiments and provide empirical
evidence for the predictive power and fundamental principles of BiMix. Notably,
our findings reveal that entropy-driven training-free data mixtures can achieve
comparable or even better performance than more resource-intensive methods. We
hope that our quantitative insights can shed light on further judicious
research and development in cost-effective language modeling.Summary
AI-Generated Summary