Переосмысление Веба: Рецепт для энергоэффективного и ресурсосберегающего моделирования языка
Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
January 29, 2024
Авторы: Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly
cs.AI
Аннотация
Крупные языковые модели обучаются на огромных объемах данных, собранных из интернета, которые часто являются неструктурированными, зашумленными и плохо сформулированными. Современные законы масштабирования показывают, что обучение на таких данных требует значительных вычислительных ресурсов и объемов данных, которые растут с увеличением размера модели. Это становится неосуществимым как из-за высоких вычислительных затрат и длительности предварительного обучения, так и из-за надвигающегося дефицита высококачественных данных в интернете. В данной работе мы предлагаем метод Web Rephrase Augmented Pre-training (WRAP), который использует готовую модель, настроенную на выполнение инструкций, для перефразирования документов из интернета в определенных стилях, таких как "в стиле Википедии" или "в формате вопрос-ответ", чтобы совместно обучать языковые модели на реальных и синтетических перефразировках. Во-первых, мы показываем, что использование WRAP на наборе данных C4, который естественно зашумлен, ускоряет предварительное обучение в ~3 раза. При одинаковом бюджете вычислительных ресурсов для предварительного обучения метод улучшает perplexity более чем на 10% в среднем по различным подмножествам набора данных The Pile и повышает точность ответов на вопросы в режиме zero-shot на более чем 2% по 13 задачам. Во-вторых, мы исследуем влияние стиля перефразирования на производительность модели, предлагая понимание того, как состав обучающих данных может влиять на производительность языковых моделей в условиях out-of-distribution (OOD). Наши достижения объясняются тем, что синтетические данные, полученные путем перефразирования, обладают большей полезностью, чем просто реальные данные, поскольку они (i) включают разнообразие стилей, которое близко отражает стиль оценки на последующих этапах, и (ii) имеют более высокое "качество" по сравнению с данными, собранными из интернета.
English
Large language models are trained on massive scrapes of the web, which are
often unstructured, noisy, and poorly phrased. Current scaling laws show that
learning from such data requires an abundance of both compute and data, which
grows with the size of the model being trained. This is infeasible both because
of the large compute costs and duration associated with pre-training, and the
impending scarcity of high-quality data on the web. In this work, we propose
Web Rephrase Augmented Pre-training (WRAP) that uses an
off-the-shelf instruction-tuned model prompted to paraphrase documents on the
web in specific styles such as "like Wikipedia" or in "question-answer format"
to jointly pre-train LLMs on real and synthetic rephrases. First, we show that
using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training
by sim3x. At the same pre-training compute budget, it improves perplexity by
more than 10% on average across different subsets of the Pile, and improves
zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we
investigate the impact of the re-phrasing style on the performance of the
model, offering insights into how the composition of the training data can
impact the performance of LLMs in OOD settings. Our gains are attributed to the
fact that re-phrased synthetic data has higher utility than just real data
because it (i) incorporates style diversity that closely reflects downstream
evaluation style, and (ii) has higher 'quality' than web-scraped data.