ChatPaper.aiChatPaper

WildChat: 実世界における100万件のChatGPT対話ログ

WildChat: 1M ChatGPT Interaction Logs in the Wild

May 2, 2024
著者: Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng
cs.AI

要旨

GPT-4やChatGPTなどのチャットボットは現在、数百万人のユーザーにサービスを提供しています。しかし、その広範な利用にもかかわらず、実際のユーザー集団によるこれらのツールの使用方法を示す公開データセットは依然として不足しています。この隔たりを埋めるため、私たちはオンラインユーザーにChatGPTの無料アクセスを提供し、その代償としてユーザーからの肯定的かつ合意に基づくオプトインにより、チャット記録とリクエストヘッダーを匿名収集する許可を得ました。これにより、100万件のユーザーとChatGPTの対話からなるWildChatコーパスを構築しました。このデータセットは250万以上のインタラクションターンを含みます。WildChatを他の一般的なユーザー対チャットボット対話データセットと比較すると、当データセットが最も多様なユーザープロンプトを提供し、最多の言語数を包含し、研究者が調査するための潜在的有害使用ケースの最も豊かなバリエーションを提示することがわかります。 タイムスタンプ付きチャット記録に加えて、当データセットには州・国・ハッシュ化IPアドレスといった人口統計データとリクエストヘッダーを付加しています。この拡張により、異なる地理的領域や時間軸にわたるユーザー行動のより詳細な分析が可能となります。最後に、広範な使用ケースを捕捉しているため、指示追従モデルのファインチューニングにおける当データセットの潜在的有用性を実証します。WildChatはhttps://wildchat.allen.ai でAI2 ImpACTライセンスの下で公開されています。
English
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite their widespread use, there remains a lack of public datasets showcasing how these tools are used by a population of users in practice. To bridge this gap, we offered free access to ChatGPT for online users in exchange for their affirmative, consensual opt-in to anonymously collect their chat transcripts and request headers. From this, we compiled WildChat, a corpus of 1 million user-ChatGPT conversations, which consists of over 2.5 million interaction turns. We compare WildChat with other popular user-chatbot interaction datasets, and find that our dataset offers the most diverse user prompts, contains the largest number of languages, and presents the richest variety of potentially toxic use-cases for researchers to study. In addition to timestamped chat transcripts, we enrich the dataset with demographic data, including state, country, and hashed IP addresses, alongside request headers. This augmentation allows for more detailed analysis of user behaviors across different geographical regions and temporal dimensions. Finally, because it captures a broad range of use cases, we demonstrate the dataset's potential utility in fine-tuning instruction-following models. WildChat is released at https://wildchat.allen.ai under AI2 ImpACT Licenses.
PDF641February 8, 2026