ChatPaper.aiChatPaper

O Conjunto de Dados RefinedWeb para o Falcon LLM: Superando Corpora Curados com Dados da Web, e Apenas Dados da Web

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

June 1, 2023
Autores: Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay
cs.AI

Resumo

Modelos de linguagem de grande escala são comumente treinados em uma mistura de dados da web filtrados e corpora de alta qualidade curados, como conversas em mídias sociais, livros ou artigos técnicos. Acredita-se que esse processo de curadoria seja necessário para produzir modelos de alto desempenho com amplas habilidades de generalização zero-shot. No entanto, à medida que modelos maiores que exigem pré-treinamento em trilhões de tokens são considerados, não está claro quão escalável é a curadoria e se em breve ficaremos sem dados únicos de alta qualidade. Contrariando crenças anteriores, mostramos que dados da web devidamente filtrados e deduplicados podem, por si só, levar a modelos poderosos; superando significativamente até mesmo modelos de última geração treinados no The Pile. Apesar da filtragem extensiva, os dados de alta qualidade que extraímos da web ainda são abundantes, e conseguimos obter cinco trilhões de tokens do CommonCrawl. Disponibilizamos publicamente um extrato de 600 bilhões de tokens de nosso conjunto de dados RefinedWeb, além de modelos de linguagem com 1,3/7,5 bilhões de parâmetros treinados nele.
English
Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclear how scalable is curation and whether we will run out of unique high-quality data soon. At variance with previous beliefs, we show that properly filtered and deduplicated web data alone can lead to powerful models; even significantly outperforming models from the state-of-the-art trained on The Pile. Despite extensive filtering, the high-quality data we extract from the web is still plentiful, and we are able to obtain five trillion tokens from CommonCrawl. We publicly release an extract of 600 billion tokens from our RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.
PDF433March 25, 2026