Reformulando la Web: Una Receta para el Modelado de Lenguaje Eficiente en Cómputo y Datos

Resumen

Los modelos de lenguaje a gran escala se entrenan con grandes extracciones de la web, que a menudo están desestructuradas, son ruidosas y están mal redactadas. Las leyes de escalado actuales muestran que aprender de tales datos requiere una abundancia tanto de capacidad de cómputo como de datos, que crece con el tamaño del modelo que se está entrenando. Esto es inviable tanto por los altos costos de cómputo y la duración asociada con el preentrenamiento, como por la inminente escasez de datos de alta calidad en la web. En este trabajo, proponemos el Preentrenamiento Aumentado con Reformulación Web (WRAP, por sus siglas en inglés), que utiliza un modelo ajustado por instrucciones listo para usar, el cual se solicita para parafrasear documentos de la web en estilos específicos, como "al estilo de Wikipedia" o en "formato de pregunta-respuesta", para preentrenar conjuntamente modelos de lenguaje en reformulaciones reales y sintéticas. Primero, mostramos que el uso de WRAP en el conjunto de datos C4, que es naturalmente ruidoso, acelera el preentrenamiento en aproximadamente 3 veces. Con el mismo presupuesto de cómputo para el preentrenamiento, mejora la perplejidad en más del 10% en promedio en diferentes subconjuntos de The Pile, y aumenta la precisión en tareas de respuesta a preguntas de cero disparos en más del 2% en 13 tareas. Segundo, investigamos el impacto del estilo de reformulación en el rendimiento del modelo, ofreciendo insights sobre cómo la composición de los datos de entrenamiento puede afectar el rendimiento de los modelos de lenguaje en entornos fuera de distribución (OOD). Nuestros avances se atribuyen al hecho de que los datos sintéticos reformulados tienen una mayor utilidad que los datos reales, ya que (i) incorporan diversidad de estilos que reflejan de cerca el estilo de evaluación posterior, y (ii) tienen una 'calidad' más alta que los datos extraídos de la web.

English

Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training (WRAP) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by sim3x. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

Reformulando la Web: Una Receta para el Modelado de Lenguaje Eficiente en Cómputo y Datos

Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Resumen

Support