Het Web Herformuleren: Een Recept voor Reken- en Data-efficiënte Taalmodellering

Samenvatting

Grote taalmodellen worden getraind op enorme hoeveelheden webdata, die vaak ongestructureerd, rommelig en slecht geformuleerd zijn. Huidige schaalwetten laten zien dat het leren van dergelijke data een overvloed aan rekenkracht en data vereist, wat toeneemt met de grootte van het model dat wordt getraind. Dit is onhaalbaar vanwege de hoge rekenkosten en de duur die gepaard gaan met pre-training, evenals de dreigende schaarste aan hoogwaardige data op het web. In dit werk stellen we Web Rephrase Augmented Pre-training (WRAP) voor, dat een kant-en-klaar instructie-afgestemd model gebruikt dat wordt aangestuurd om documenten op het web te parafraseren in specifieke stijlen zoals "zoals Wikipedia" of in "vraag-antwoordformaat" om LLM's gezamenlijk te pre-trainen op echte en synthetische herformuleringen. Ten eerste laten we zien dat het gebruik van WRAP op de C4-dataset, die van nature rommelig is, de pre-training versnelt met sim3x. Bij hetzelfde pre-trainingsbudget verbetert het de perplexiteit met meer dan 10% gemiddeld over verschillende subsets van de Pile, en verbetert het de zero-shot vraag-antwoordnauwkeurigheid over 13 taken met meer dan 2%. Ten tweede onderzoeken we de impact van de herformuleringsstijl op de prestaties van het model, wat inzicht biedt in hoe de samenstelling van de trainingsdata de prestaties van LLM's in OOD-omstandigheden kan beïnvloeden. Onze winsten worden toegeschreven aan het feit dat herformuleerde synthetische data een hoger nut heeft dan alleen echte data, omdat het (i) stijldiversiteit incorporeert die nauw aansluit bij de stijl van downstream evaluatie, en (ii) een hogere 'kwaliteit' heeft dan webgeschraapte data.

English

Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training (WRAP) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by sim3x. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

Het Web Herformuleren: Een Recept voor Reken- en Data-efficiënte Taalmodellering

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Samenvatting

Support