ChatPaper.aiChatPaper

MS MARCO Web Search:数百万の実クリックラベルを伴う大規模で情報豊富なウェブデータセット

MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13, 2024
著者: Qi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang
cs.AI

要旨

大規模モデルにおける最近のブレークスルーは、データ規模、ラベル、モダリティの重要性を浮き彫りにしました。本論文では、MS MARCO Web Searchを紹介します。これは、数百万の実際のクリックされたクエリ-ドキュメントラベルを特徴とする、初の大規模で情報豊富なウェブデータセットです。このデータセットは、現実世界のウェブドキュメントとクエリの分布を忠実に模倣し、さまざまな下流タスクのための豊富な情報を提供し、汎用的なエンドツーエンドニューラルインデクサーモデル、汎用的な埋め込みモデル、大規模言語モデルを用いた次世代情報アクセスシステムなど、さまざまな分野の研究を促進します。MS MARCO Web Searchは、機械学習と情報検索システムの研究分野の両方でイノベーションを求める3つのウェブ検索チャレンジタスクを備えた検索ベンチマークを提供します。大規模で現実的かつ情報豊富なデータ要件を満たす初のデータセットとして、MS MARCO Web SearchはAIとシステム研究の将来の進歩への道を開きます。MS MARCO Web Searchデータセットは、https://github.com/microsoft/MS-MARCO-Web-Search で利用可能です。
English
Recent breakthroughs in large models have highlighted the critical significance of data scale, labels and modals. In this paper, we introduce MS MARCO Web Search, the first large-scale information-rich web dataset, featuring millions of real clicked query-document labels. This dataset closely mimics real-world web document and query distribution, provides rich information for various kinds of downstream tasks and encourages research in various areas, such as generic end-to-end neural indexer models, generic embedding models, and next generation information access system with large language models. MS MARCO Web Search offers a retrieval benchmark with three web retrieval challenge tasks that demand innovations in both machine learning and information retrieval system research domains. As the first dataset that meets large, real and rich data requirements, MS MARCO Web Search paves the way for future advancements in AI and system research. MS MARCO Web Search dataset is available at: https://github.com/microsoft/MS-MARCO-Web-Search.

Summary

AI-Generated Summary

PDF221December 15, 2024