ChatPaper.aiChatPaper

Essential-Web v1.0: 24T Token organisierten Webdaten

Essential-Web v1.0: 24T tokens of organized web data

June 17, 2025
Autoren: Essential AI, Andrew Hojel, Michael Pust, Tim Romanski, Yash Vanjani, Ritvik Kapila, Mohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas, Ashish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos, Khoi Nguyen, Kurt Smith, Michael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava, Somanshu Singla, Ashish Vaswani
cs.AI

Zusammenfassung

Daten spielen die wichtigste Rolle dabei, wie Sprachmodelle Fähigkeiten und Wissen erwerben. Das Fehlen umfangreicher, gut organisierter Vor-Trainingsdatensätze führt zu kostspieligen und schwer zugänglichen Datenpipelines. Wir präsentieren Essential-Web v1.0, einen Datensatz mit 24 Billionen Tokens, in dem jedes Dokument mit einer zwölf Kategorien umfassenden Taxonomie annotiert ist, die Themen, Format, Inhaltskomplexität und Qualität abdeckt. Die Taxonomie-Labels werden von EAI-Distill-0.5b erzeugt, einem feinabgestimmten Modell mit 0,5 Milliarden Parametern, das eine Annotatorenübereinstimmung innerhalb von 3 % von Qwen2.5-32B-Instruct erreicht. Mit nichts weiter als SQL-ähnlichen Filtern erhalten wir wettbewerbsfähige, webkuratierte Datensätze in den Bereichen Mathematik (-8,0 % relativ zum State-of-the-Art), Web-Code (+14,3 %), MINT (+24,5 %) und Medizin (+8,6 %). Essential-Web v1.0 ist auf HuggingFace verfügbar: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0.
English
Data plays the most prominent role in how language models acquire skills and knowledge. The lack of massive, well-organized pre-training datasets results in costly and inaccessible data pipelines. We present Essential-Web v1.0, a 24-trillion-token dataset in which every document is annotated with a twelve-category taxonomy covering topic, format, content complexity, and quality. Taxonomy labels are produced by EAI-Distill-0.5b, a fine-tuned 0.5b-parameter model that achieves an annotator agreement within 3% of Qwen2.5-32B-Instruct. With nothing more than SQL-style filters, we obtain competitive web-curated datasets in math (-8.0% relative to SOTA), web code (+14.3%), STEM (+24.5%) and medical (+8.6%). Essential-Web v1.0 is available on HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
PDF286June 18, 2025