Essential-Web v1.0: 24 billones de tokens de datos web organizados
Essential-Web v1.0: 24T tokens of organized web data
June 17, 2025
Autores: Essential AI, Andrew Hojel, Michael Pust, Tim Romanski, Yash Vanjani, Ritvik Kapila, Mohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas, Ashish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos, Khoi Nguyen, Kurt Smith, Michael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava, Somanshu Singla, Ashish Vaswani
cs.AI
Resumen
Los datos desempeñan el papel más destacado en cómo los modelos de lenguaje adquieren habilidades y conocimientos. La falta de conjuntos de datos masivos y bien organizados para el preentrenamiento resulta en pipelines de datos costosos e inaccesibles. Presentamos Essential-Web v1.0, un conjunto de datos de 24 billones de tokens en el que cada documento está anotado con una taxonomía de doce categorías que cubre tema, formato, complejidad del contenido y calidad. Las etiquetas de la taxonomía son generadas por EAI-Distill-0.5b, un modelo ajustado de 0.5 mil millones de parámetros que logra un acuerdo entre anotadores dentro del 3% de Qwen2.5-32B-Instruct. Con nada más que filtros de estilo SQL, obtenemos conjuntos de datos web curados competitivos en matemáticas (-8.0% en relación con el estado del arte), código web (+14.3%), STEM (+24.5%) y medicina (+8.6%). Essential-Web v1.0 está disponible en HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0.
English
Data plays the most prominent role in how language models acquire skills and
knowledge. The lack of massive, well-organized pre-training datasets results in
costly and inaccessible data pipelines. We present Essential-Web v1.0, a
24-trillion-token dataset in which every document is annotated with a
twelve-category taxonomy covering topic, format, content complexity, and
quality. Taxonomy labels are produced by EAI-Distill-0.5b, a fine-tuned
0.5b-parameter model that achieves an annotator agreement within 3% of
Qwen2.5-32B-Instruct. With nothing more than SQL-style filters, we obtain
competitive web-curated datasets in math (-8.0% relative to SOTA), web code
(+14.3%), STEM (+24.5%) and medical (+8.6%). Essential-Web v1.0 is available on
HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0