ChatPaper.aiChatPaper

WildChat: 1 Milhão de Registros de Interações com ChatGPT no Mundo Real

WildChat: 1M ChatGPT Interaction Logs in the Wild

May 2, 2024
Autores: Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng
cs.AI

Resumo

Chatbots como GPT-4 e ChatGPT agora atendem milhões de usuários. Apesar de seu uso generalizado, ainda há uma carência de conjuntos de dados públicos que mostrem como essas ferramentas são utilizadas por uma população de usuários na prática. Para preencher essa lacuna, oferecemos acesso gratuito ao ChatGPT para usuários online em troca de seu consentimento afirmativo e anônimo para coletar suas transcrições de chat e cabeçalhos de solicitação. A partir disso, compilamos o WildChat, um corpus de 1 milhão de conversas entre usuários e o ChatGPT, que consiste em mais de 2,5 milhões de turnos de interação. Comparamos o WildChat com outros conjuntos de dados populares de interação entre usuários e chatbots e descobrimos que nosso conjunto de dados oferece os prompts de usuário mais diversos, contém o maior número de idiomas e apresenta a maior variedade de casos de uso potencialmente tóxicos para os pesquisadores estudarem. Além das transcrições de chat com carimbo de data e hora, enriquecemos o conjunto de dados com informações demográficas, incluindo estado, país e endereços IP hashados, juntamente com cabeçalhos de solicitação. Esse enriquecimento permite uma análise mais detalhada dos comportamentos dos usuários em diferentes regiões geográficas e dimensões temporais. Por fim, como o conjunto de dados captura uma ampla gama de casos de uso, demonstramos sua utilidade potencial no ajuste fino de modelos de seguimento de instruções. O WildChat é disponibilizado em https://wildchat.allen.ai sob as licenças AI2 ImpACT.
English
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite their widespread use, there remains a lack of public datasets showcasing how these tools are used by a population of users in practice. To bridge this gap, we offered free access to ChatGPT for online users in exchange for their affirmative, consensual opt-in to anonymously collect their chat transcripts and request headers. From this, we compiled WildChat, a corpus of 1 million user-ChatGPT conversations, which consists of over 2.5 million interaction turns. We compare WildChat with other popular user-chatbot interaction datasets, and find that our dataset offers the most diverse user prompts, contains the largest number of languages, and presents the richest variety of potentially toxic use-cases for researchers to study. In addition to timestamped chat transcripts, we enrich the dataset with demographic data, including state, country, and hashed IP addresses, alongside request headers. This augmentation allows for more detailed analysis of user behaviors across different geographical regions and temporal dimensions. Finally, because it captures a broad range of use cases, we demonstrate the dataset's potential utility in fine-tuning instruction-following models. WildChat is released at https://wildchat.allen.ai under AI2 ImpACT Licenses.
PDF631December 15, 2024