Het Web Herformuleren: Een Recept voor Reken- en Data-efficiënte Taalmodellering
Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
January 29, 2024
Auteurs: Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly
cs.AI
Samenvatting
Grote taalmodellen worden getraind op enorme hoeveelheden webdata, die vaak ongestructureerd, rommelig en slecht geformuleerd zijn. Huidige schaalwetten laten zien dat het leren van dergelijke data een overvloed aan rekenkracht en data vereist, wat toeneemt met de grootte van het model dat wordt getraind. Dit is onhaalbaar vanwege de hoge rekenkosten en de duur die gepaard gaan met pre-training, evenals de dreigende schaarste aan hoogwaardige data op het web. In dit werk stellen we Web Rephrase Augmented Pre-training (WRAP) voor, dat een kant-en-klaar instructie-afgestemd model gebruikt dat wordt aangestuurd om documenten op het web te parafraseren in specifieke stijlen zoals "zoals Wikipedia" of in "vraag-antwoordformaat" om LLM's gezamenlijk te pre-trainen op echte en synthetische herformuleringen. Ten eerste laten we zien dat het gebruik van WRAP op de C4-dataset, die van nature rommelig is, de pre-training versnelt met sim3x. Bij hetzelfde pre-trainingsbudget verbetert het de perplexiteit met meer dan 10% gemiddeld over verschillende subsets van de Pile, en verbetert het de zero-shot vraag-antwoordnauwkeurigheid over 13 taken met meer dan 2%. Ten tweede onderzoeken we de impact van de herformuleringsstijl op de prestaties van het model, wat inzicht biedt in hoe de samenstelling van de trainingsdata de prestaties van LLM's in OOD-omstandigheden kan beïnvloeden. Onze winsten worden toegeschreven aan het feit dat herformuleerde synthetische data een hoger nut heeft dan alleen echte data, omdat het (i) stijldiversiteit incorporeert die nauw aansluit bij de stijl van downstream evaluatie, en (ii) een hogere 'kwaliteit' heeft dan webgeschraapte data.
English
Large language models are trained on massive scrapes of the web, which are
often unstructured, noisy, and poorly phrased. Current scaling laws show that
learning from such data requires an abundance of both compute and data, which
grows with the size of the model being trained. This is infeasible both because
of the large compute costs and duration associated with pre-training, and the
impending scarcity of high-quality data on the web. In this work, we propose
Web Rephrase Augmented Pre-training (WRAP) that uses an
off-the-shelf instruction-tuned model prompted to paraphrase documents on the
web in specific styles such as "like Wikipedia" or in "question-answer format"
to jointly pre-train LLMs on real and synthetic rephrases. First, we show that
using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training
by sim3x. At the same pre-training compute budget, it improves perplexity by
more than 10% on average across different subsets of the Pile, and improves
zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we
investigate the impact of the re-phrasing style on the performance of the
model, offering insights into how the composition of the training data can
impact the performance of LLMs in OOD settings. Our gains are attributed to the
fact that re-phrased synthetic data has higher utility than just real data
because it (i) incorporates style diversity that closely reflects downstream
evaluation style, and (ii) has higher 'quality' than web-scraped data.