Essential-Web v1.0: 24T tokens van gestructureerde webgegevens
Essential-Web v1.0: 24T tokens of organized web data
June 17, 2025
Auteurs: Essential AI, Andrew Hojel, Michael Pust, Tim Romanski, Yash Vanjani, Ritvik Kapila, Mohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas, Ashish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos, Khoi Nguyen, Kurt Smith, Michael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava, Somanshu Singla, Ashish Vaswani
cs.AI
Samenvatting
Data speelt de meest prominente rol in hoe taalmodellen vaardigheden en kennis verwerven. Het ontbreken van enorme, goed georganiseerde pre-trainingsdatasets resulteert in kostbare en ontoegankelijke datapijplijnen. Wij presenteren Essential-Web v1.0, een dataset van 24 biljoen tokens waarin elk document is geannoteerd met een twaalfcategorieën-taxonomie die onderwerp, formaat, inhoudscomplexiteit en kwaliteit dekt. De taxonomielabels worden geproduceerd door EAI-Distill-0.5b, een fijn afgestemd model met 0,5 miljard parameters dat een annotatorovereenkomst bereikt binnen 3% van Qwen2.5-32B-Instruct. Met niet meer dan SQL-stijl filters verkrijgen we concurrerende web-gecurateerde datasets in wiskunde (-8,0% relatief ten opzichte van SOTA), webcode (+14,3%), STEM (+24,5%) en medisch (+8,6%). Essential-Web v1.0 is beschikbaar op HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
English
Data plays the most prominent role in how language models acquire skills and
knowledge. The lack of massive, well-organized pre-training datasets results in
costly and inaccessible data pipelines. We present Essential-Web v1.0, a
24-trillion-token dataset in which every document is annotated with a
twelve-category taxonomy covering topic, format, content complexity, and
quality. Taxonomy labels are produced by EAI-Distill-0.5b, a fine-tuned
0.5b-parameter model that achieves an annotator agreement within 3% of
Qwen2.5-32B-Instruct. With nothing more than SQL-style filters, we obtain
competitive web-curated datasets in math (-8.0% relative to SOTA), web code
(+14.3%), STEM (+24.5%) and medical (+8.6%). Essential-Web v1.0 is available on
HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0