ChatPaper.aiChatPaper

WildChat : 1 million de journaux d'interactions ChatGPT dans des conditions réelles

WildChat: 1M ChatGPT Interaction Logs in the Wild

May 2, 2024
Auteurs: Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng
cs.AI

Résumé

Les chatbots tels que GPT-4 et ChatGPT servent désormais des millions d'utilisateurs. Malgré leur utilisation généralisée, il existe un manque de jeux de données publics montrant comment ces outils sont utilisés en pratique par une population d'utilisateurs. Pour combler cette lacune, nous avons offert un accès gratuit à ChatGPT aux utilisateurs en ligne en échange de leur consentement explicite et anonyme pour collecter leurs transcriptions de conversations et leurs en-têtes de requêtes. À partir de cela, nous avons compilé WildChat, un corpus d'un million de conversations utilisateur-ChatGPT, comprenant plus de 2,5 millions de tours d'interaction. Nous comparons WildChat avec d'autres jeux de données populaires d'interactions utilisateur-chatbot, et constatons que notre ensemble de données offre les invites utilisateur les plus diversifiées, contient le plus grand nombre de langues et présente la plus grande variété de cas d'utilisation potentiellement toxiques pour les chercheurs. En plus des transcriptions de conversations horodatées, nous enrichissons le jeu de données avec des données démographiques, y compris l'état, le pays et les adresses IP hachées, ainsi que les en-têtes de requêtes. Cette augmentation permet une analyse plus détaillée des comportements des utilisateurs à travers différentes régions géographiques et dimensions temporelles. Enfin, comme il capture un large éventail de cas d'utilisation, nous démontrons l'utilité potentielle de ce jeu de données pour affiner les modèles de suivi d'instructions. WildChat est disponible à l'adresse https://wildchat.allen.ai sous les licences AI2 ImpACT.
English
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite their widespread use, there remains a lack of public datasets showcasing how these tools are used by a population of users in practice. To bridge this gap, we offered free access to ChatGPT for online users in exchange for their affirmative, consensual opt-in to anonymously collect their chat transcripts and request headers. From this, we compiled WildChat, a corpus of 1 million user-ChatGPT conversations, which consists of over 2.5 million interaction turns. We compare WildChat with other popular user-chatbot interaction datasets, and find that our dataset offers the most diverse user prompts, contains the largest number of languages, and presents the richest variety of potentially toxic use-cases for researchers to study. In addition to timestamped chat transcripts, we enrich the dataset with demographic data, including state, country, and hashed IP addresses, alongside request headers. This augmentation allows for more detailed analysis of user behaviors across different geographical regions and temporal dimensions. Finally, because it captures a broad range of use cases, we demonstrate the dataset's potential utility in fine-tuning instruction-following models. WildChat is released at https://wildchat.allen.ai under AI2 ImpACT Licenses.

Summary

AI-Generated Summary

PDF631December 15, 2024