Reformulando la Web: Una Receta para el Modelado de Lenguaje Eficiente en Cómputo y Datos
Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling
January 29, 2024
Autores: Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly
cs.AI
Resumen
Los modelos de lenguaje a gran escala se entrenan con grandes extracciones de la web, que a menudo están desestructuradas, son ruidosas y están mal redactadas. Las leyes de escalado actuales muestran que aprender de tales datos requiere una abundancia tanto de capacidad de cómputo como de datos, que crece con el tamaño del modelo que se está entrenando. Esto es inviable tanto por los altos costos de cómputo y la duración asociada con el preentrenamiento, como por la inminente escasez de datos de alta calidad en la web. En este trabajo, proponemos el Preentrenamiento Aumentado con Reformulación Web (WRAP, por sus siglas en inglés), que utiliza un modelo ajustado por instrucciones listo para usar, el cual se solicita para parafrasear documentos de la web en estilos específicos, como "al estilo de Wikipedia" o en "formato de pregunta-respuesta", para preentrenar conjuntamente modelos de lenguaje en reformulaciones reales y sintéticas. Primero, mostramos que el uso de WRAP en el conjunto de datos C4, que es naturalmente ruidoso, acelera el preentrenamiento en aproximadamente 3 veces. Con el mismo presupuesto de cómputo para el preentrenamiento, mejora la perplejidad en más del 10% en promedio en diferentes subconjuntos de The Pile, y aumenta la precisión en tareas de respuesta a preguntas de cero disparos en más del 2% en 13 tareas. Segundo, investigamos el impacto del estilo de reformulación en el rendimiento del modelo, ofreciendo insights sobre cómo la composición de los datos de entrenamiento puede afectar el rendimiento de los modelos de lenguaje en entornos fuera de distribución (OOD). Nuestros avances se atribuyen al hecho de que los datos sintéticos reformulados tienen una mayor utilidad que los datos reales, ya que (i) incorporan diversidad de estilos que reflejan de cerca el estilo de evaluación posterior, y (ii) tienen una 'calidad' más alta que los datos extraídos de la web.
English
Large language models are trained on massive scrapes of the web, which are
often unstructured, noisy, and poorly phrased. Current scaling laws show that
learning from such data requires an abundance of both compute and data, which
grows with the size of the model being trained. This is infeasible both because
of the large compute costs and duration associated with pre-training, and the
impending scarcity of high-quality data on the web. In this work, we propose
Web Rephrase Augmented Pre-training (WRAP) that uses an
off-the-shelf instruction-tuned model prompted to paraphrase documents on the
web in specific styles such as "like Wikipedia" or in "question-answer format"
to jointly pre-train LLMs on real and synthetic rephrases. First, we show that
using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training
by sim3x. At the same pre-training compute budget, it improves perplexity by
more than 10% on average across different subsets of the Pile, and improves
zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we
investigate the impact of the re-phrasing style on the performance of the
model, offering insights into how the composition of the training data can
impact the performance of LLMs in OOD settings. Our gains are attributed to the
fact that re-phrased synthetic data has higher utility than just real data
because it (i) incorporates style diversity that closely reflects downstream
evaluation style, and (ii) has higher 'quality' than web-scraped data.