Essential-Web v1.0: 24 trilhões de tokens de dados web organizados
Essential-Web v1.0: 24T tokens of organized web data
June 17, 2025
Autores: Essential AI, Andrew Hojel, Michael Pust, Tim Romanski, Yash Vanjani, Ritvik Kapila, Mohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas, Ashish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos, Khoi Nguyen, Kurt Smith, Michael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava, Somanshu Singla, Ashish Vaswani
cs.AI
Resumo
Os dados desempenham o papel mais proeminente na forma como os modelos de linguagem adquirem habilidades e conhecimento. A falta de conjuntos de dados massivos e bem organizados para pré-treinamento resulta em pipelines de dados custosos e inacessíveis. Apresentamos o Essential-Web v1.0, um conjunto de dados de 24 trilhões de tokens no qual cada documento é anotado com uma taxonomia de doze categorias que abrange tópico, formato, complexidade do conteúdo e qualidade. As etiquetas da taxonomia são produzidas pelo EAI-Distill-0.5b, um modelo ajustado com 0,5 bilhão de parâmetros que alcança uma concordância entre anotadores dentro de 3% do Qwen2.5-32B-Instruct. Com nada mais do que filtros no estilo SQL, obtemos conjuntos de dados competitivos curados da web em matemática (-8,0% em relação ao estado da arte), código web (+14,3%), STEM (+24,5%) e medicina (+8,6%). O Essential-Web v1.0 está disponível no HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0.
English
Data plays the most prominent role in how language models acquire skills and
knowledge. The lack of massive, well-organized pre-training datasets results in
costly and inaccessible data pipelines. We present Essential-Web v1.0, a
24-trillion-token dataset in which every document is annotated with a
twelve-category taxonomy covering topic, format, content complexity, and
quality. Taxonomy labels are produced by EAI-Distill-0.5b, a fine-tuned
0.5b-parameter model that achieves an annotator agreement within 3% of
Qwen2.5-32B-Instruct. With nothing more than SQL-style filters, we obtain
competitive web-curated datasets in math (-8.0% relative to SOTA), web code
(+14.3%), STEM (+24.5%) and medical (+8.6%). Essential-Web v1.0 is available on
HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0