Reformuler le Web : Une recette pour un modélisation du langage efficace en calcul et en données
Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
January 29, 2024
Auteurs: Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly
cs.AI
Résumé
Les grands modèles de langage sont entraînés sur des extractions massives du web, qui sont souvent non structurées, bruyantes et mal formulées. Les lois actuelles de mise à l'échelle montrent que l'apprentissage à partir de telles données nécessite une abondance de ressources de calcul et de données, qui augmentent avec la taille du modèle entraîné. Cela est irréalisable à la fois en raison des coûts de calcul élevés et de la durée associée au pré-entraînement, ainsi que de la pénurie imminente de données de haute qualité sur le web. Dans ce travail, nous proposons le Web Rephrase Augmented Pre-training (WRAP), qui utilise un modèle pré-ajusté sur des instructions pour paraphraser des documents du web dans des styles spécifiques tels que "comme Wikipédia" ou en "format question-réponse", afin de pré-entraîner conjointement les modèles de langage sur des paraphrases réelles et synthétiques. Premièrement, nous montrons que l'utilisation de WRAP sur le jeu de données C4, qui est naturellement bruyant, accélère le pré-entraînement par un facteur de 3x. Avec le même budget de calcul de pré-entraînement, il améliore la perplexité de plus de 10 % en moyenne sur différents sous-ensembles du Pile, et améliore la précision en réponse à des questions en zero-shot sur 13 tâches de plus de 2 %. Deuxièmement, nous étudions l'impact du style de paraphrase sur les performances du modèle, offrant des insights sur la manière dont la composition des données d'entraînement peut influencer les performances des modèles de langage dans des contextes hors distribution (OOD). Nos gains sont attribués au fait que les données synthétiques paraphrasées ont une utilité plus élevée que les données réelles, car elles (i) incorporent une diversité de styles qui reflète étroitement le style d'évaluation en aval, et (ii) ont une "qualité" supérieure à celle des données extraites du web.
English
Large language models are trained on massive scrapes of the web, which are
often unstructured, noisy, and poorly phrased. Current scaling laws show that
learning from such data requires an abundance of both compute and data, which
grows with the size of the model being trained. This is infeasible both because
of the large compute costs and duration associated with pre-training, and the
impending scarcity of high-quality data on the web. In this work, we propose
Web Rephrase Augmented Pre-training (WRAP) that uses an
off-the-shelf instruction-tuned model prompted to paraphrase documents on the
web in specific styles such as "like Wikipedia" or in "question-answer format"
to jointly pre-train LLMs on real and synthetic rephrases. First, we show that
using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training
by sim3x. At the same pre-training compute budget, it improves perplexity by
more than 10% on average across different subsets of the Pile, and improves
zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we
investigate the impact of the re-phrasing style on the performance of the
model, offering insights into how the composition of the training data can
impact the performance of LLMs in OOD settings. Our gains are attributed to the
fact that re-phrased synthetic data has higher utility than just real data
because it (i) incorporates style diversity that closely reflects downstream
evaluation style, and (ii) has higher 'quality' than web-scraped data.