Das RefinedWeb-Datensatz für Falcon LLM: Übertreffen kuratierter Korpora mit Webdaten und ausschließlich Webdaten
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
June 1, 2023
Autoren: Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay
cs.AI
Zusammenfassung
Große Sprachmodelle werden üblicherweise mit einer Mischung aus gefilterten Webdaten und kuratierten, hochwertigen Korpora trainiert, wie beispielsweise Social-Media-Konversationen, Büchern oder technischen Artikeln. Dieser Kuratierungsprozess gilt als notwendig, um leistungsstarke Modelle mit breiten Zero-Shot-Generalisierungsfähigkeiten zu erzeugen. Wenn jedoch größere Modelle in Betracht gezogen werden, die ein Pretraining auf Billionen von Tokens erfordern, ist unklar, wie skalierbar die Kuratierung ist und ob uns bald die einzigartigen, hochwertigen Daten ausgehen werden. Im Gegensatz zu früheren Annahmen zeigen wir, dass richtig gefilterte und deduplizierte Webdaten allein zu leistungsfähigen Modellen führen können; diese übertreffen sogar Modelle des State-of-the-Art, die auf The Pile trainiert wurden. Trotz umfangreicher Filterung sind die hochwertigen Daten, die wir aus dem Web extrahieren, immer noch reichlich vorhanden, und wir konnten fünf Billionen Tokens aus CommonCrawl gewinnen. Wir veröffentlichen einen Ausschnitt von 600 Milliarden Tokens aus unserem RefinedWeb-Datensatz sowie Sprachmodelle mit 1,3/7,5 Milliarden Parametern, die darauf trainiert wurden.
English
Large language models are commonly trained on a mixture of filtered web data
and curated high-quality corpora, such as social media conversations, books, or
technical papers. This curation process is believed to be necessary to produce
performant models with broad zero-shot generalization abilities. However, as
larger models requiring pretraining on trillions of tokens are considered, it
is unclear how scalable is curation and whether we will run out of unique
high-quality data soon. At variance with previous beliefs, we show that
properly filtered and deduplicated web data alone can lead to powerful models;
even significantly outperforming models from the state-of-the-art trained on
The Pile. Despite extensive filtering, the high-quality data we extract from
the web is still plentiful, and we are able to obtain five trillion tokens from
CommonCrawl. We publicly release an extract of 600 billion tokens from our
RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.