Craw4LLM: Crawling Efficiente per il Pretraining di Modelli Linguistici di Grande Dimensione
Craw4LLM: Efficient Web Crawling for LLM Pretraining
February 19, 2025
Autori: Shi Yu, Zhiyuan Liu, Chenyan Xiong
cs.AI
Abstract
Il web crawling è una delle principali fonti di dati per il pre-training dei modelli linguistici di grandi dimensioni (LLM), ma la maggior parte delle pagine web raccolte viene scartata durante il pre-training a causa della bassa qualità dei dati. Questo articolo presenta Crawl4LLM, un metodo efficiente di web crawling che esplora il grafo del web basandosi sulle preferenze del pre-training degli LLM. Nello specifico, sfrutta l'influenza di una pagina web nel pre-training degli LLM come punteggio di priorità dello scheduler del web crawler, sostituendo la priorità standard basata sulla connettività del grafo. I nostri esperimenti su un grafo web contenente 900 milioni di pagine provenienti dall'indice di un motore di ricerca commerciale dimostrano l'efficienza di Crawl4LLM nell'ottenere dati di pre-training di alta qualità. Con solo il 21% degli URL raccolti, gli LLM pre-addestrati sui dati di Crawl4LLM raggiungono le stesse prestazioni downstream dei precedenti crawl, riducendo significativamente lo spreco di crawling e alleviando il carico sui siti web. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/cxcscmu/Crawl4LLM.
English
Web crawl is a main source of large language models' (LLMs) pretraining data,
but the majority of crawled web pages are discarded in pretraining due to low
data quality. This paper presents Crawl4LLM, an efficient web crawling method
that explores the web graph based on the preference of LLM pretraining.
Specifically, it leverages the influence of a webpage in LLM pretraining as the
priority score of the web crawler's scheduler, replacing the standard graph
connectivity based priority. Our experiments on a web graph containing 900
million webpages from a commercial search engine's index demonstrate the
efficiency of Crawl4LLM in obtaining high-quality pretraining data. With just
21% URLs crawled, LLMs pretrained on Crawl4LLM data reach the same downstream
performances of previous crawls, significantly reducing the crawling waste and
alleviating the burdens on websites. Our code is publicly available at
https://github.com/cxcscmu/Crawl4LLM.Summary
AI-Generated Summary