ChatPaper.aiChatPaper

Mélange de données optimisé : une loi d'échelle bivariée pour le pré-entraînement des modèles de langage

Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining

May 23, 2024
Auteurs: Ce Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding
cs.AI

Résumé

Les grands modèles de langage démontrent des capacités de généralisation exceptionnelles, principalement attribuables à l'utilisation de données provenant de sources diversifiées. Cependant, les pratiques conventionnelles d'intégration de ces données variées reposent largement sur des schémas heuristiques, manquant de fondements théoriques. Cette recherche aborde ces limitations en explorant des stratégies basées sur des proxies à faible coût pour les mélanges de données, dans le but de rationaliser la curation des données pour améliorer l'efficacité de l'entraînement. Plus précisément, nous proposons une loi d'échelle unifiée, appelée BiMix, qui modélise avec précision les comportements d'échelle bivariés de la quantité de données et des proportions de mélange. Nous menons des expériences systématiques et fournissons des preuves empiriques de la puissance prédictive et des principes fondamentaux de BiMix. Notamment, nos résultats révèlent que des mélanges de données sans entraînement, guidés par l'entropie, peuvent atteindre des performances comparables, voire supérieures, à celles de méthodes plus coûteuses en ressources. Nous espérons que nos insights quantitatifs pourront éclairer des recherches et développements judicieux dans la modélisation du langage à moindre coût.
English
Large language models exhibit exceptional generalization capabilities, primarily attributed to the utilization of diversely sourced data. However, conventional practices in integrating this diverse data heavily rely on heuristic schemes, lacking theoretical guidance. This research tackles these limitations by investigating strategies based on low-cost proxies for data mixtures, with the aim of streamlining data curation to enhance training efficiency. Specifically, we propose a unified scaling law, termed BiMix, which accurately models the bivariate scaling behaviors of both data quantity and mixing proportions. We conduct systematic experiments and provide empirical evidence for the predictive power and fundamental principles of BiMix. Notably, our findings reveal that entropy-driven training-free data mixtures can achieve comparable or even better performance than more resource-intensive methods. We hope that our quantitative insights can shed light on further judicious research and development in cost-effective language modeling.

Summary

AI-Generated Summary

PDF160December 15, 2024