Il Dataset RefinedWeb per Falcon LLM: Superare i Corpora Curati con Dati Web, e Soltanto Dati Web

Abstract

I grandi modelli linguistici vengono comunemente addestrati su una miscela di dati web filtrati e corpora di alta qualità curati, come conversazioni sui social media, libri o articoli tecnici. Si ritiene che questo processo di selezione sia necessario per produrre modelli performanti con ampie capacità di generalizzazione zero-shot. Tuttavia, considerando modelli più grandi che richiedono pre-addestramento su trilioni di token, non è chiaro quanto sia scalabile la selezione e se esauriremo presto i dati unici di alta qualità. Contrariamente a precedenti convinzioni, dimostriamo che dati web adeguatamente filtrati e deduplicati possono da soli portare a modelli potenti; superando significativamente anche i modelli all'avanguardia addestrati su The Pile. Nonostante un'estesa filtrazione, i dati di alta qualità che estraiamo dal web sono ancora abbondanti, e siamo in grado di ottenere cinque trilioni di token da CommonCrawl. Rilasciamo pubblicamente un estratto di 600 miliardi di token dal nostro dataset RefinedWeb, e modelli linguistici da 1,3/7,5 miliardi di parametri addestrati su di esso.

English

Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclear how scalable is curation and whether we will run out of unique high-quality data soon. At variance with previous beliefs, we show that properly filtered and deduplicated web data alone can lead to powerful models; even significantly outperforming models from the state-of-the-art trained on The Pile. Despite extensive filtering, the high-quality data we extract from the web is still plentiful, and we are able to obtain five trillion tokens from CommonCrawl. We publicly release an extract of 600 billion tokens from our RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.

Il Dataset RefinedWeb per Falcon LLM: Superare i Corpora Curati con Dati Web, e Soltanto Dati Web

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

Abstract

Support