Le jeu de données RefinedWeb pour Falcon LLM : Surpasser les corpus organisés avec des données web, et uniquement des données web
The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only
June 1, 2023
Auteurs: Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay
cs.AI
Résumé
Les grands modèles de langage sont généralement entraînés sur un mélange de données web filtrées et de corpus de haute qualité soigneusement sélectionnés, tels que des conversations sur les réseaux sociaux, des livres ou des articles techniques. Ce processus de curation est considéré comme nécessaire pour produire des modèles performants dotés de larges capacités de généralisation en zero-shot. Cependant, à mesure que des modèles plus volumineux nécessitant un pré-entraînement sur des milliers de milliards de tokens sont envisagés, il est incertain dans quelle mesure la curation est scalable et si nous allons bientôt manquer de données uniques de haute qualité. Contrairement aux croyances précédentes, nous montrons que des données web correctement filtrées et dédupliquées peuvent à elles seules conduire à des modèles puissants, surpassant même de manière significative les modèles de pointe entraînés sur The Pile. Malgré un filtrage extensif, les données de haute qualité que nous extrayons du web restent abondantes, et nous sommes en mesure d'obtenir cinq mille milliards de tokens à partir de CommonCrawl. Nous rendons publiquement accessible un extrait de 600 milliards de tokens de notre jeu de données RefinedWeb, ainsi que des modèles de langage de 1,3/7,5 milliards de paramètres entraînés sur celui-ci.
English
Large language models are commonly trained on a mixture of filtered web data
and curated high-quality corpora, such as social media conversations, books, or
technical papers. This curation process is believed to be necessary to produce
performant models with broad zero-shot generalization abilities. However, as
larger models requiring pretraining on trillions of tokens are considered, it
is unclear how scalable is curation and whether we will run out of unique
high-quality data soon. At variance with previous beliefs, we show that
properly filtered and deduplicated web data alone can lead to powerful models;
even significantly outperforming models from the state-of-the-art trained on
The Pile. Despite extensive filtering, the high-quality data we extract from
the web is still plentiful, and we are able to obtain five trillion tokens from
CommonCrawl. We publicly release an extract of 600 billion tokens from our
RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.