Craw4LLM: Rastreo Web Eficiente para el Pretrenamiento de Modelos de Lenguaje Grande
Craw4LLM: Efficient Web Crawling for LLM Pretraining
February 19, 2025
Autores: Shi Yu, Zhiyuan Liu, Chenyan Xiong
cs.AI
Resumen
El rastreo web es una fuente principal de datos de preentrenamiento para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), pero la mayoría de las páginas web rastreadas se descartan durante el preentrenamiento debido a su baja calidad. Este artículo presenta Crawl4LLM, un método eficiente de rastreo web que explora el grafo web basándose en las preferencias del preentrenamiento de LLMs. En concreto, aprovecha la influencia de una página web en el preentrenamiento de LLMs como puntuación de prioridad del planificador del rastreador web, reemplazando la prioridad estándar basada en la conectividad del grafo. Nuestros experimentos en un grafo web que contiene 900 millones de páginas del índice de un motor de búsqueda comercial demuestran la eficiencia de Crawl4LLM para obtener datos de preentrenamiento de alta calidad. Con solo el 21% de las URLs rastreadas, los LLMs preentrenados con datos de Crawl4LLM alcanzan el mismo rendimiento en tareas posteriores que los obtenidos con rastreos previos, reduciendo significativamente el desperdicio de rastreo y aliviando la carga en los sitios web. Nuestro código está disponible públicamente en https://github.com/cxcscmu/Crawl4LLM.
English
Web crawl is a main source of large language models' (LLMs) pretraining data,
but the majority of crawled web pages are discarded in pretraining due to low
data quality. This paper presents Crawl4LLM, an efficient web crawling method
that explores the web graph based on the preference of LLM pretraining.
Specifically, it leverages the influence of a webpage in LLM pretraining as the
priority score of the web crawler's scheduler, replacing the standard graph
connectivity based priority. Our experiments on a web graph containing 900
million webpages from a commercial search engine's index demonstrate the
efficiency of Crawl4LLM in obtaining high-quality pretraining data. With just
21% URLs crawled, LLMs pretrained on Crawl4LLM data reach the same downstream
performances of previous crawls, significantly reducing the crawling waste and
alleviating the burdens on websites. Our code is publicly available at
https://github.com/cxcscmu/Crawl4LLM.Summary
AI-Generated Summary