ChatPaper.aiChatPaper

MS MARCO 웹 검색: 수백만 개의 실제 클릭 레이블이 포함된 대규모 정보 풍부 웹 데이터셋

MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13, 2024
저자: Qi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang
cs.AI

초록

최근 대형 모델 분야의 획기적인 발전은 데이터 규모, 레이블 및 모달의 중요성을 부각시켰습니다. 본 논문에서는 수백만 개의 실제 클릭 기반 쿼리-문서 레이블을 포함한 최초의 대규모 정보 풍부 웹 데이터셋인 MS MARCO 웹 검색을 소개합니다. 이 데이터셋은 실제 웹 문서 및 쿼리 분포를 충실히 반영하며, 다양한 하위 작업을 위한 풍부한 정보를 제공하고, 일반적인 종단간 신경망 인덱서 모델, 일반적인 임베딩 모델, 대형 언어 모델을 활용한 차세대 정보 접근 시스템 등 다양한 분야의 연구를 촉진합니다. MS MARCO 웹 검색은 기계 학습 및 정보 검색 시스템 연구 분야 모두에서 혁신을 요구하는 세 가지 웹 검색 과제를 포함한 검색 벤치마크를 제공합니다. 대규모, 실제 데이터, 풍부한 정보라는 요구사항을 충족하는 최초의 데이터셋으로서, MS MARCO 웹 검색은 AI 및 시스템 연구의 미래 발전을 위한 길을 열어줍니다. MS MARCO 웹 검색 데이터셋은 https://github.com/microsoft/MS-MARCO-Web-Search에서 이용 가능합니다.
English
Recent breakthroughs in large models have highlighted the critical significance of data scale, labels and modals. In this paper, we introduce MS MARCO Web Search, the first large-scale information-rich web dataset, featuring millions of real clicked query-document labels. This dataset closely mimics real-world web document and query distribution, provides rich information for various kinds of downstream tasks and encourages research in various areas, such as generic end-to-end neural indexer models, generic embedding models, and next generation information access system with large language models. MS MARCO Web Search offers a retrieval benchmark with three web retrieval challenge tasks that demand innovations in both machine learning and information retrieval system research domains. As the first dataset that meets large, real and rich data requirements, MS MARCO Web Search paves the way for future advancements in AI and system research. MS MARCO Web Search dataset is available at: https://github.com/microsoft/MS-MARCO-Web-Search.

Summary

AI-Generated Summary

PDF221December 15, 2024