Эффективное смешивание данных: Бивариативный закон масштабирования для предварительного обучения языковой модели

Аннотация

Большие языковые модели обладают исключительными способностями к обобщению, в основном благодаря использованию разнообразных источников данных. Однако традиционные практики интеграции этого разнообразного материала тесно связаны с эвристическими схемами, лишенными теоретического руководства. Настоящее исследование решает эти ограничения, исследуя стратегии на основе недорогих замен для смесей данных с целью оптимизации курирования данных для улучшения эффективности обучения. Конкретно, мы предлагаем единую закономерность масштабирования, названную BiMix, которая точно моделирует бивариантное поведение масштабирования как количества данных, так и пропорций смешивания. Мы проводим систематические эксперименты и предоставляем эмпирические доказательства предсказательной силы и фундаментальных принципов BiMix. Особенно наши результаты показывают, что смеси данных, основанные на энтропийном подходе и не требующие обучения, могут достичь сравнимой или даже лучшей производительности, чем более ресурсоемкие методы. Мы надеемся, что наши количественные исследования могут пролить свет на дальнейшие разумные исследования и разработки в области экономичного языкового моделирования.

English

Large language models exhibit exceptional generalization capabilities, primarily attributed to the utilization of diversely sourced data. However, conventional practices in integrating this diverse data heavily rely on heuristic schemes, lacking theoretical guidance. This research tackles these limitations by investigating strategies based on low-cost proxies for data mixtures, with the aim of streamlining data curation to enhance training efficiency. Specifically, we propose a unified scaling law, termed BiMix, which accurately models the bivariate scaling behaviors of both data quantity and mixing proportions. We conduct systematic experiments and provide empirical evidence for the predictive power and fundamental principles of BiMix. Notably, our findings reveal that entropy-driven training-free data mixtures can achieve comparable or even better performance than more resource-intensive methods. We hope that our quantitative insights can shed light on further judicious research and development in cost-effective language modeling.

Эффективное смешивание данных: Бивариативный закон масштабирования для предварительного обучения языковой модели

Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining

Аннотация

Support