Craw4LLM: Crawling Efficiente per il Pretraining di Modelli Linguistici di Grande Dimensione

Abstract

Il web crawling è una delle principali fonti di dati per il pre-training dei modelli linguistici di grandi dimensioni (LLM), ma la maggior parte delle pagine web raccolte viene scartata durante il pre-training a causa della bassa qualità dei dati. Questo articolo presenta Crawl4LLM, un metodo efficiente di web crawling che esplora il grafo del web basandosi sulle preferenze del pre-training degli LLM. Nello specifico, sfrutta l'influenza di una pagina web nel pre-training degli LLM come punteggio di priorità dello scheduler del web crawler, sostituendo la priorità standard basata sulla connettività del grafo. I nostri esperimenti su un grafo web contenente 900 milioni di pagine provenienti dall'indice di un motore di ricerca commerciale dimostrano l'efficienza di Crawl4LLM nell'ottenere dati di pre-training di alta qualità. Con solo il 21% degli URL raccolti, gli LLM pre-addestrati sui dati di Crawl4LLM raggiungono le stesse prestazioni downstream dei precedenti crawl, riducendo significativamente lo spreco di crawling e alleviando il carico sui siti web. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/cxcscmu/Crawl4LLM.

English

Web crawl is a main source of large language models' (LLMs) pretraining data, but the majority of crawled web pages are discarded in pretraining due to low data quality. This paper presents Crawl4LLM, an efficient web crawling method that explores the web graph based on the preference of LLM pretraining. Specifically, it leverages the influence of a webpage in LLM pretraining as the priority score of the web crawler's scheduler, replacing the standard graph connectivity based priority. Our experiments on a web graph containing 900 million webpages from a commercial search engine's index demonstrate the efficiency of Crawl4LLM in obtaining high-quality pretraining data. With just 21% URLs crawled, LLMs pretrained on Crawl4LLM data reach the same downstream performances of previous crawls, significantly reducing the crawling waste and alleviating the burdens on websites. Our code is publicly available at https://github.com/cxcscmu/Crawl4LLM.

Craw4LLM: Crawling Efficiente per il Pretraining di Modelli Linguistici di Grande Dimensione

Craw4LLM: Efficient Web Crawling for LLM Pretraining

Abstract

Support