Essential-Web v1.0 : 24 000 milliards de tokens de données web organisées
Essential-Web v1.0: 24T tokens of organized web data
June 17, 2025
Auteurs: Essential AI, Andrew Hojel, Michael Pust, Tim Romanski, Yash Vanjani, Ritvik Kapila, Mohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas, Ashish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos, Khoi Nguyen, Kurt Smith, Michael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava, Somanshu Singla, Ashish Vaswani
cs.AI
Résumé
Les données jouent le rôle le plus prépondérant dans la manière dont les modèles de langage acquièrent des compétences et des connaissances. L'absence de vastes ensembles de données de pré-entraînement bien organisés entraîne des pipelines de données coûteux et inaccessibles. Nous présentons Essential-Web v1.0, un ensemble de données de 24 billions de tokens dans lequel chaque document est annoté avec une taxonomie à douze catégories couvrant le sujet, le format, la complexité du contenu et la qualité. Les étiquettes de taxonomie sont produites par EAI-Distill-0.5b, un modèle de 0,5 milliard de paramètres affiné qui atteint un accord d'annotateurs à moins de 3 % de celui de Qwen2.5-32B-Instruct. Avec rien de plus que des filtres de type SQL, nous obtenons des ensembles de données web compétitifs en mathématiques (-8,0 % par rapport à l'état de l'art), en code web (+14,3 %), en STEM (+24,5 %) et en médecine (+8,6 %). Essential-Web v1.0 est disponible sur HuggingFace : https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
English
Data plays the most prominent role in how language models acquire skills and
knowledge. The lack of massive, well-organized pre-training datasets results in
costly and inaccessible data pipelines. We present Essential-Web v1.0, a
24-trillion-token dataset in which every document is annotated with a
twelve-category taxonomy covering topic, format, content complexity, and
quality. Taxonomy labels are produced by EAI-Distill-0.5b, a fine-tuned
0.5b-parameter model that achieves an annotator agreement within 3% of
Qwen2.5-32B-Instruct. With nothing more than SQL-style filters, we obtain
competitive web-curated datasets in math (-8.0% relative to SOTA), web code
(+14.3%), STEM (+24.5%) and medical (+8.6%). Essential-Web v1.0 is available on
HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0