Riformulare il Web: Una Ricetta per il Modellamento del Linguaggio Efficiente in Termini di Calcolo e Dati
Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
January 29, 2024
Autori: Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly
cs.AI
Abstract
I grandi modelli linguistici vengono addestrati su enormi raccolte di dati provenienti dal web, che sono spesso non strutturati, rumorosi e formulati in modo approssimativo. Le attuali leggi di scalatura dimostrano che l'apprendimento da tali dati richiede un'abbondanza sia di risorse computazionali che di dati, che crescono con le dimensioni del modello in fase di addestramento. Ciò è impraticabile sia a causa degli elevati costi computazionali e della durata associata al pre-training, sia per l'imminente scarsità di dati di alta qualità sul web. In questo lavoro, proponiamo il Web Rephrase Augmented Pre-training (WRAP), che utilizza un modello pre-addestrato su istruzioni, già disponibile, per parafrasare documenti del web in stili specifici come "simile a Wikipedia" o in "formato domanda-risposta", al fine di pre-addestrare congiuntamente i modelli linguistici su parafrasi reali e sintetiche. In primo luogo, dimostriamo che l'uso di WRAP sul dataset C4, che è naturalmente rumoroso, accelera il pre-training di circa 3 volte. Con lo stesso budget computazionale per il pre-training, migliora la perplessità di oltre il 10% in media su diversi sottoinsiemi del Pile e aumenta l'accuratezza zero-shot nelle risposte a domande su 13 task di oltre il 2%. In secondo luogo, indaghiamo l'impatto dello stile di parafrasi sulle prestazioni del modello, offrendo intuizioni su come la composizione dei dati di addestramento possa influenzare le prestazioni dei modelli linguistici in contesti out-of-distribution (OOD). I nostri miglioramenti sono attribuiti al fatto che i dati sintetici parafrasati hanno un'utilità maggiore rispetto ai soli dati reali, poiché (i) incorporano una diversità di stili che riflette da vicino lo stile di valutazione downstream, e (ii) hanno una "qualità" superiore rispetto ai dati raccolti dal web.
English
Large language models are trained on massive scrapes of the web, which are
often unstructured, noisy, and poorly phrased. Current scaling laws show that
learning from such data requires an abundance of both compute and data, which
grows with the size of the model being trained. This is infeasible both because
of the large compute costs and duration associated with pre-training, and the
impending scarcity of high-quality data on the web. In this work, we propose
Web Rephrase Augmented Pre-training (WRAP) that uses an
off-the-shelf instruction-tuned model prompted to paraphrase documents on the
web in specific styles such as "like Wikipedia" or in "question-answer format"
to jointly pre-train LLMs on real and synthetic rephrases. First, we show that
using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training
by sim3x. At the same pre-training compute budget, it improves perplexity by
more than 10% on average across different subsets of the Pile, and improves
zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we
investigate the impact of the re-phrasing style on the performance of the
model, offering insights into how the composition of the training data can
impact the performance of LLMs in OOD settings. Our gains are attributed to the
fact that re-phrased synthetic data has higher utility than just real data
because it (i) incorporates style diversity that closely reflects downstream
evaluation style, and (ii) has higher 'quality' than web-scraped data.