WildChat:実環境における100万件のChatGPTインタラクションログ
WildChat: 1M ChatGPT Interaction Logs in the Wild
May 2, 2024
著者: Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng
cs.AI
要旨
GPT-4やChatGPTなどのチャットボットは現在、数百万人のユーザーにサービスを提供しています。しかし、その広範な使用にもかかわらず、実際にこれらのツールがどのように使用されているかを示す公開データセットは不足しています。このギャップを埋めるため、私たちはオンラインユーザーにChatGPTの無料アクセスを提供し、その代わりにチャットの記録とリクエストヘッダーを匿名で収集するための同意を得ました。これにより、100万件のユーザーとChatGPTの会話からなるWildChatコーパスを構築しました。このコーパスは250万以上のインタラクションツーンで構成されています。WildChatを他の人気のあるユーザーとチャットボットのインタラクションデータセットと比較すると、私たちのデータセットは最も多様なユーザープロンプトを提供し、最も多くの言語を含み、研究者が研究するための潜在的に有害な使用例の最も豊富なバリエーションを提示しています。タイムスタンプ付きのチャット記録に加えて、州、国、ハッシュ化されたIPアドレス、リクエストヘッダーなどの人口統計データをデータセットに追加しました。この拡張により、異なる地理的領域や時間的次元にわたるユーザーの行動をより詳細に分析することが可能になります。最後に、広範な使用例を捕捉しているため、指示追従モデルのファインチューニングにおけるデータセットの潜在的な有用性を実証しました。WildChatは、AI2 ImpACTライセンスの下でhttps://wildchat.allen.aiで公開されています。
English
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite
their widespread use, there remains a lack of public datasets showcasing how
these tools are used by a population of users in practice. To bridge this gap,
we offered free access to ChatGPT for online users in exchange for their
affirmative, consensual opt-in to anonymously collect their chat transcripts
and request headers. From this, we compiled WildChat, a corpus of 1 million
user-ChatGPT conversations, which consists of over 2.5 million interaction
turns. We compare WildChat with other popular user-chatbot interaction
datasets, and find that our dataset offers the most diverse user prompts,
contains the largest number of languages, and presents the richest variety of
potentially toxic use-cases for researchers to study. In addition to
timestamped chat transcripts, we enrich the dataset with demographic data,
including state, country, and hashed IP addresses, alongside request headers.
This augmentation allows for more detailed analysis of user behaviors across
different geographical regions and temporal dimensions. Finally, because it
captures a broad range of use cases, we demonstrate the dataset's potential
utility in fine-tuning instruction-following models. WildChat is released at
https://wildchat.allen.ai under AI2 ImpACT Licenses.Summary
AI-Generated Summary