Essential-Web v1.0: 24 триллиона токенов структурированных веб-данных
Essential-Web v1.0: 24T tokens of organized web data
June 17, 2025
Авторы: Essential AI, Andrew Hojel, Michael Pust, Tim Romanski, Yash Vanjani, Ritvik Kapila, Mohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas, Ashish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos, Khoi Nguyen, Kurt Smith, Michael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava, Somanshu Singla, Ashish Vaswani
cs.AI
Аннотация
Данные играют ключевую роль в том, как языковые модели приобретают навыки и знания. Отсутствие масштабных, хорошо организованных наборов данных для предварительного обучения приводит к дорогостоящим и труднодоступным конвейерам данных. Мы представляем Essential-Web v1.0 — набор данных объемом 24 триллиона токенов, в котором каждый документ аннотирован с использованием двенадцатикатегорийной таксономии, охватывающей тему, формат, сложность содержания и качество. Метки таксономии создаются моделью EAI-Distill-0.5b, доработанной моделью с 0,5 миллиардами параметров, которая достигает согласия аннотаторов в пределах 3% от Qwen2.5-32B-Instruct. Используя только SQL-подобные фильтры, мы получаем конкурентоспособные наборы данных, отобранные из веб-источников, в таких областях, как математика (-8,0% относительно SOTA), веб-код (+14,3%), STEM (+24,5%) и медицина (+8,6%). Essential-Web v1.0 доступен на HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0.
English
Data plays the most prominent role in how language models acquire skills and
knowledge. The lack of massive, well-organized pre-training datasets results in
costly and inaccessible data pipelines. We present Essential-Web v1.0, a
24-trillion-token dataset in which every document is annotated with a
twelve-category taxonomy covering topic, format, content complexity, and
quality. Taxonomy labels are produced by EAI-Distill-0.5b, a fine-tuned
0.5b-parameter model that achieves an annotator agreement within 3% of
Qwen2.5-32B-Instruct. With nothing more than SQL-style filters, we obtain
competitive web-curated datasets in math (-8.0% relative to SOTA), web code
(+14.3%), STEM (+24.5%) and medical (+8.6%). Essential-Web v1.0 is available on
HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0