ChatPaper.aiChatPaper

WildChat: 1 Million ChatGPT-Interaktionsprotokolle in freier Wildbahn

WildChat: 1M ChatGPT Interaction Logs in the Wild

May 2, 2024
Autoren: Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng
cs.AI

Zusammenfassung

Chatbots wie GPT-4 und ChatGPT bedienen nun Millionen von Benutzern. Trotz ihrer weit verbreiteten Nutzung fehlt es immer noch an öffentlichen Datensätzen, die zeigen, wie diese Tools von einer Benutzerpopulation in der Praxis eingesetzt werden. Um diese Lücke zu schließen, haben wir kostenlosen Zugang zu ChatGPT für Online-Benutzer angeboten, im Austausch für ihre zustimmende, freiwillige Zustimmung zur anonymen Erfassung ihrer Chat-Transkripte und Anfrage-Header. Daraus haben wir WildChat erstellt, ein Korpus von 1 Million Benutzer-ChatGPT-Gesprächen, das über 2,5 Millionen Interaktionswechsel umfasst. Wir vergleichen WildChat mit anderen beliebten Benutzer-Chatbot-Interaktionsdatensätzen und stellen fest, dass unser Datensatz die vielfältigsten Benutzeranfragen bietet, die größte Anzahl von Sprachen enthält und die reichhaltigste Vielfalt an potenziell toxischen Anwendungsfällen für Forscher zum Studium bereitstellt. Zusätzlich zu den zeitgestempelten Chat-Transkripten bereichern wir den Datensatz mit demografischen Daten, einschließlich Bundesland, Land und gehashten IP-Adressen, zusammen mit Anfrage-Headern. Diese Erweiterung ermöglicht eine detailliertere Analyse des Benutzerverhaltens in verschiedenen geografischen Regionen und zeitlichen Dimensionen. Schließlich, da es eine breite Palette von Anwendungsfällen erfasst, zeigen wir das potenzielle Nutzen des Datensatzes zur Feinabstimmung von Anweisungsfolgemodellen auf. WildChat wird unter AI2 ImpACT Lizenzen auf https://wildchat.allen.ai veröffentlicht.
English
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite their widespread use, there remains a lack of public datasets showcasing how these tools are used by a population of users in practice. To bridge this gap, we offered free access to ChatGPT for online users in exchange for their affirmative, consensual opt-in to anonymously collect their chat transcripts and request headers. From this, we compiled WildChat, a corpus of 1 million user-ChatGPT conversations, which consists of over 2.5 million interaction turns. We compare WildChat with other popular user-chatbot interaction datasets, and find that our dataset offers the most diverse user prompts, contains the largest number of languages, and presents the richest variety of potentially toxic use-cases for researchers to study. In addition to timestamped chat transcripts, we enrich the dataset with demographic data, including state, country, and hashed IP addresses, alongside request headers. This augmentation allows for more detailed analysis of user behaviors across different geographical regions and temporal dimensions. Finally, because it captures a broad range of use cases, we demonstrate the dataset's potential utility in fine-tuning instruction-following models. WildChat is released at https://wildchat.allen.ai under AI2 ImpACT Licenses.

Summary

AI-Generated Summary

PDF631December 15, 2024