ChatPaper.aiChatPaper

Essential-Web v1.0:24Tトークンの体系化されたウェブデータ

Essential-Web v1.0: 24T tokens of organized web data

June 17, 2025
著者: Essential AI, Andrew Hojel, Michael Pust, Tim Romanski, Yash Vanjani, Ritvik Kapila, Mohit Parmar, Adarsh Chaluvaraju, Alok Tripathy, Anil Thomas, Ashish Tanwer, Darsh J Shah, Ishaan Shah, Karl Stratos, Khoi Nguyen, Kurt Smith, Michael Callahan, Peter Rushton, Philip Monk, Platon Mazarakis, Saad Jamal, Saurabh Srivastava, Somanshu Singla, Ashish Vaswani
cs.AI

要旨

データは、言語モデルがスキルと知識を獲得する上で最も重要な役割を果たします。大規模で整理された事前学習データセットの欠如は、コストが高くアクセスしにくいデータパイプラインを引き起こします。本論文では、Essential-Web v1.0を紹介します。これは24兆トークンのデータセットであり、各ドキュメントはトピック、フォーマット、内容の複雑さ、品質をカバーする12カテゴリのタクソノミーで注釈付けされています。タクソノミーラベルは、Qwen2.5-32B-Instructのアノテーター一致率の3%以内を達成する、0.5bパラメータのファインチューニングされたモデルであるEAI-Distill-0.5bによって生成されます。SQLスタイルのフィルタを使用するだけで、数学(SOTAに対して-8.0%)、ウェブコード(+14.3%)、STEM(+24.5%)、医療(+8.6%)の競争力のあるウェブキュレーションデータセットを取得できます。Essential-Web v1.0はHuggingFaceで利用可能です: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
English
Data plays the most prominent role in how language models acquire skills and knowledge. The lack of massive, well-organized pre-training datasets results in costly and inaccessible data pipelines. We present Essential-Web v1.0, a 24-trillion-token dataset in which every document is annotated with a twelve-category taxonomy covering topic, format, content complexity, and quality. Taxonomy labels are produced by EAI-Distill-0.5b, a fine-tuned 0.5b-parameter model that achieves an annotator agreement within 3% of Qwen2.5-32B-Instruct. With nothing more than SQL-style filters, we obtain competitive web-curated datasets in math (-8.0% relative to SOTA), web code (+14.3%), STEM (+24.5%) and medical (+8.6%). Essential-Web v1.0 is available on HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
PDF286June 18, 2025