El Conjunto de Datos RefinedWeb para Falcon LLM: Superando Corpora Cuidadosamente Seleccionados con Datos Web, y Solo Datos Web
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
June 1, 2023
Autores: Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay
cs.AI
Resumen
Los modelos de lenguaje de gran tamaño comúnmente se entrenan con una mezcla de datos web filtrados y corpus de alta calidad seleccionados, como conversaciones de redes sociales, libros o artículos técnicos. Se cree que este proceso de selección es necesario para producir modelos eficientes con amplias capacidades de generalización en escenarios de zero-shot. Sin embargo, a medida que se consideran modelos más grandes que requieren preentrenamiento con billones de tokens, no está claro qué tan escalable es la selección de datos y si pronto nos quedaremos sin datos únicos de alta calidad. Contrario a creencias anteriores, demostramos que los datos web adecuadamente filtrados y deduplicados por sí solos pueden dar lugar a modelos potentes; incluso superando significativamente a los modelos de última generación entrenados en The Pile. A pesar de un filtrado extenso, los datos de alta calidad que extraemos de la web siguen siendo abundantes, y logramos obtener cinco billones de tokens de CommonCrawl. Publicamos un extracto de 600 mil millones de tokens de nuestro conjunto de datos RefinedWeb, junto con modelos de lenguaje de 1.3/7.5 mil millones de parámetros entrenados en él.
English
Large language models are commonly trained on a mixture of filtered web data
and curated high-quality corpora, such as social media conversations, books, or
technical papers. This curation process is believed to be necessary to produce
performant models with broad zero-shot generalization abilities. However, as
larger models requiring pretraining on trillions of tokens are considered, it
is unclear how scalable is curation and whether we will run out of unique
high-quality data soon. At variance with previous beliefs, we show that
properly filtered and deduplicated web data alone can lead to powerful models;
even significantly outperforming models from the state-of-the-art trained on
The Pile. Despite extensive filtering, the high-quality data we extract from
the web is still plentiful, and we are able to obtain five trillion tokens from
CommonCrawl. We publicly release an extract of 600 billion tokens from our
RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.