ChatPaper.aiChatPaper

Os Conjuntos de Dados FineWeb: Filtrando a Web para Obter os Melhores Dados de Texto em Escala

The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

June 25, 2024
Autores: Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf
cs.AI

Resumo

O desempenho de um grande modelo de linguagem (LLM) depende fortemente da qualidade e tamanho do seu conjunto de dados de pré-treinamento. No entanto, os conjuntos de dados de pré-treinamento para LLMs abertos de ponta, como Llama 3 e Mixtral, não estão disponíveis publicamente e pouco se sabe sobre como foram criados. Neste trabalho, apresentamos o FineWeb, um conjunto de dados de 15 trilhões de tokens derivado de 96 snapshots do Common Crawl que produz LLMs com melhor desempenho do que outros conjuntos de dados de pré-treinamento abertos. Para avançar na compreensão de como melhor curar conjuntos de dados de pré-treinamento de alta qualidade, documentamos cuidadosamente e ablatamos todas as escolhas de design utilizadas no FineWeb, incluindo investigações detalhadas de estratégias de deduplicação e filtragem. Além disso, apresentamos o FineWeb-Edu, uma coleção de 1,3 trilhão de tokens de texto educacional filtrado do FineWeb. LLMs pré-treinados no FineWeb-Edu apresentam um desempenho significativamente melhor em benchmarks intensivos em conhecimento e raciocínio, como MMLU e ARC. Juntamente com nossos conjuntos de dados, disponibilizamos publicamente nosso código de curadoria de dados e todos os modelos treinados durante nossos experimentos de ablação.
English
The performance of a large language model (LLM) depends heavily on the quality and size of its pretraining dataset. However, the pretraining datasets for state-of-the-art open LLMs like Llama 3 and Mixtral are not publicly available and very little is known about how they were created. In this work, we introduce FineWeb, a 15-trillion token dataset derived from 96 Common Crawl snapshots that produces better-performing LLMs than other open pretraining datasets. To advance the understanding of how best to curate high-quality pretraining datasets, we carefully document and ablate all of the design choices used in FineWeb, including in-depth investigations of deduplication and filtering strategies. In addition, we introduce FineWeb-Edu, a 1.3-trillion token collection of educational text filtered from FineWeb. LLMs pretrained on FineWeb-Edu exhibit dramatically better performance on knowledge- and reasoning-intensive benchmarks like MMLU and ARC. Along with our datasets, we publicly release our data curation codebase and all of the models trained during our ablation experiments.
PDF985November 29, 2024