ChatPaper.aiChatPaper

Craw4LLM: Rastreo Web Eficiente para el Pretrenamiento de Modelos de Lenguaje Grande

Craw4LLM: Efficient Web Crawling for LLM Pretraining

February 19, 2025
Autores: Shi Yu, Zhiyuan Liu, Chenyan Xiong
cs.AI

Resumen

El rastreo web es una fuente principal de datos de preentrenamiento para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), pero la mayoría de las páginas web rastreadas se descartan durante el preentrenamiento debido a su baja calidad. Este artículo presenta Crawl4LLM, un método eficiente de rastreo web que explora el grafo web basándose en las preferencias del preentrenamiento de LLMs. En concreto, aprovecha la influencia de una página web en el preentrenamiento de LLMs como puntuación de prioridad del planificador del rastreador web, reemplazando la prioridad estándar basada en la conectividad del grafo. Nuestros experimentos en un grafo web que contiene 900 millones de páginas del índice de un motor de búsqueda comercial demuestran la eficiencia de Crawl4LLM para obtener datos de preentrenamiento de alta calidad. Con solo el 21% de las URLs rastreadas, los LLMs preentrenados con datos de Crawl4LLM alcanzan el mismo rendimiento en tareas posteriores que los obtenidos con rastreos previos, reduciendo significativamente el desperdicio de rastreo y aliviando la carga en los sitios web. Nuestro código está disponible públicamente en https://github.com/cxcscmu/Crawl4LLM.
English
Web crawl is a main source of large language models' (LLMs) pretraining data, but the majority of crawled web pages are discarded in pretraining due to low data quality. This paper presents Crawl4LLM, an efficient web crawling method that explores the web graph based on the preference of LLM pretraining. Specifically, it leverages the influence of a webpage in LLM pretraining as the priority score of the web crawler's scheduler, replacing the standard graph connectivity based priority. Our experiments on a web graph containing 900 million webpages from a commercial search engine's index demonstrate the efficiency of Crawl4LLM in obtaining high-quality pretraining data. With just 21% URLs crawled, LLMs pretrained on Crawl4LLM data reach the same downstream performances of previous crawls, significantly reducing the crawling waste and alleviating the burdens on websites. Our code is publicly available at https://github.com/cxcscmu/Crawl4LLM.

Summary

AI-Generated Summary

PDF282February 20, 2025