Craw4LLM: Coleta Eficiente de Dados da Web para Pré-treinamento de LLMs
Craw4LLM: Efficient Web Crawling for LLM Pretraining
February 19, 2025
Autores: Shi Yu, Zhiyuan Liu, Chenyan Xiong
cs.AI
Resumo
O rastreamento da web é uma das principais fontes de dados para o pré-treinamento de modelos de linguagem de grande escala (LLMs), mas a maioria das páginas da web rastreadas é descartada durante o pré-treinamento devido à baixa qualidade dos dados. Este artigo apresenta o Crawl4LLM, um método eficiente de rastreamento da web que explora o grafo da web com base na preferência do pré-treinamento de LLMs. Especificamente, ele utiliza a influência de uma página da web no pré-treinamento de LLMs como a pontuação de prioridade do agendador do rastreador, substituindo a prioridade padrão baseada na conectividade do grafo. Nossos experimentos em um grafo da web contendo 900 milhões de páginas do índice de um mecanismo de busca comercial demonstram a eficiência do Crawl4LLM na obtenção de dados de pré-treinamento de alta qualidade. Com apenas 21% dos URLs rastreados, os LLMs pré-treinados com dados do Crawl4LLM alcançam o mesmo desempenho em tarefas subsequentes que os rastreamentos anteriores, reduzindo significativamente o desperdício de rastreamento e aliviando a carga nos sites. Nosso código está disponível publicamente em https://github.com/cxcscmu/Crawl4LLM.
English
Web crawl is a main source of large language models' (LLMs) pretraining data,
but the majority of crawled web pages are discarded in pretraining due to low
data quality. This paper presents Crawl4LLM, an efficient web crawling method
that explores the web graph based on the preference of LLM pretraining.
Specifically, it leverages the influence of a webpage in LLM pretraining as the
priority score of the web crawler's scheduler, replacing the standard graph
connectivity based priority. Our experiments on a web graph containing 900
million webpages from a commercial search engine's index demonstrate the
efficiency of Crawl4LLM in obtaining high-quality pretraining data. With just
21% URLs crawled, LLMs pretrained on Crawl4LLM data reach the same downstream
performances of previous crawls, significantly reducing the crawling waste and
alleviating the burdens on websites. Our code is publicly available at
https://github.com/cxcscmu/Crawl4LLM.Summary
AI-Generated Summary