ChatPaper.aiChatPaper

Reformulando a Web: Uma Receita para Modelagem de Linguagem Eficiente em Computação e Dados

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

January 29, 2024
Autores: Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly
cs.AI

Resumo

Modelos de linguagem de grande escala são treinados em grandes extrações da web, que frequentemente são desestruturadas, ruidosas e mal formuladas. As leis de escalonamento atuais mostram que aprender a partir desses dados requer uma abundância tanto de poder computacional quanto de dados, que crescem com o tamanho do modelo sendo treinado. Isso é inviável tanto devido aos altos custos computacionais e à duração associada ao pré-treinamento, quanto à iminente escassez de dados de alta qualidade na web. Neste trabalho, propomos o Pré-treinamento Aumentado com Reformulação da Web (WRAP, na sigla em inglês), que utiliza um modelo ajustado por instruções pronto para uso, solicitado a parafrasear documentos da web em estilos específicos, como "semelhante à Wikipedia" ou em "formato de pergunta-resposta", para pré-treinar conjuntamente modelos de linguagem de grande escala (LLMs) em reformulações reais e sintéticas. Primeiro, mostramos que o uso do WRAP no conjunto de dados C4, que é naturalmente ruidoso, acelera o pré-treinamento em aproximadamente 3 vezes. Com o mesmo orçamento computacional de pré-treinamento, ele melhora a perplexidade em mais de 10% em média em diferentes subconjuntos do Pile e aumenta a precisão de resposta a perguntas zero-shot em 13 tarefas em mais de 2%. Segundo, investigamos o impacto do estilo de reformulação no desempenho do modelo, oferecendo insights sobre como a composição dos dados de treinamento pode afetar o desempenho dos LLMs em cenários fora da distribuição (OOD). Nossos ganhos são atribuídos ao fato de que os dados sintéticos reformulados têm maior utilidade do que apenas dados reais, pois (i) incorporam diversidade de estilo que reflete de perto o estilo de avaliação a jusante, e (ii) têm maior "qualidade" do que os dados extraídos da web.
English
Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training (WRAP) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by sim3x. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.
PDF507December 15, 2024