Het RefinedWeb-dataset voor Falcon LLM: Het overtreffen van gecureerde corpora met webdata, en alleen webdata

Samenvatting

Grote taalmodelen worden doorgaans getraind op een mix van gefilterde webgegevens en gecureerde hoogwaardige corpora, zoals sociale media-gesprekken, boeken of technische artikelen. Men gelooft dat dit curatieproces noodzakelijk is om presterende modellen te produceren met brede zero-shot generalisatievermogens. Naarmate echter grotere modellen worden overwogen die voorafgaande training op biljoenen tokens vereisen, is het onduidelijk hoe schaalbaar curatie is en of we binnenkort zonder unieke hoogwaardige gegevens komen te zitten. In tegenstelling tot eerdere overtuigingen tonen we aan dat goed gefilterde en gededupliceerde webgegevens alleen al kunnen leiden tot krachtige modellen; ze presteren zelfs aanzienlijk beter dan state-of-the-art modellen die getraind zijn op The Pile. Ondanks uitgebreide filtering zijn de hoogwaardige gegevens die we uit het web halen nog steeds overvloedig aanwezig, en kunnen we vijf biljoen tokens verkrijgen uit CommonCrawl. We geven publiekelijk een extract vrij van 600 miljard tokens uit ons RefinedWeb-dataset, en taalmodelen met 1,3/7,5B parameters die daarop getraind zijn.

English

Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclear how scalable is curation and whether we will run out of unique high-quality data soon. At variance with previous beliefs, we show that properly filtered and deduplicated web data alone can lead to powerful models; even significantly outperforming models from the state-of-the-art trained on The Pile. Despite extensive filtering, the high-quality data we extract from the web is still plentiful, and we are able to obtain five trillion tokens from CommonCrawl. We publicly release an extract of 600 billion tokens from our RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.

Het RefinedWeb-dataset voor Falcon LLM: Het overtreffen van gecureerde corpora met webdata, en alleen webdata

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

Samenvatting

Support