WildChat: 1 миллион журналов взаимодействия с ChatGPT в дикой природе
WildChat: 1M ChatGPT Interaction Logs in the Wild
May 2, 2024
Авторы: Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng
cs.AI
Аннотация
Чатботы, такие как GPT-4 и ChatGPT, сейчас обслуживают миллионы пользователей. Несмотря на их широкое использование, остается недостаток общедоступных наборов данных, демонстрирующих, как эти инструменты используются пользовательской аудиторией на практике. Для заполнения этой пробела мы предложили бесплатный доступ к ChatGPT для онлайн-пользователей в обмен на их согласие на анонимное сбор чат-транскриптов и заголовков запросов. На основе этого мы составили WildChat, корпус из 1 миллиона диалогов пользователь-ChatGPT, включающий более 2,5 миллионов обменов сообщениями. Мы сравнили WildChat с другими популярными наборами данных по взаимодействию пользователь-чатбот и обнаружили, что наш набор данных предлагает самые разнообразные пользовательские запросы, содержит наибольшее количество языков и представляет наиболее богатое разнообразие потенциально токсичных случаев использования для исследования. В дополнение к таймстампам чат-транскриптов, мы обогатили набор данных демографическими данными, включая штат, страну и хешированные IP-адреса, наряду с заголовками запросов. Это дополнение позволяет более детально анализировать поведение пользователей в различных географических регионах и временных измерениях. Наконец, поскольку набор данных охватывает широкий спектр случаев использования, мы демонстрируем потенциальную полезность набора данных для настройки моделей, следующих за инструкциями. WildChat доступен по ссылке https://wildchat.allen.ai под лицензией AI2 ImpACT.
English
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite
their widespread use, there remains a lack of public datasets showcasing how
these tools are used by a population of users in practice. To bridge this gap,
we offered free access to ChatGPT for online users in exchange for their
affirmative, consensual opt-in to anonymously collect their chat transcripts
and request headers. From this, we compiled WildChat, a corpus of 1 million
user-ChatGPT conversations, which consists of over 2.5 million interaction
turns. We compare WildChat with other popular user-chatbot interaction
datasets, and find that our dataset offers the most diverse user prompts,
contains the largest number of languages, and presents the richest variety of
potentially toxic use-cases for researchers to study. In addition to
timestamped chat transcripts, we enrich the dataset with demographic data,
including state, country, and hashed IP addresses, alongside request headers.
This augmentation allows for more detailed analysis of user behaviors across
different geographical regions and temporal dimensions. Finally, because it
captures a broad range of use cases, we demonstrate the dataset's potential
utility in fine-tuning instruction-following models. WildChat is released at
https://wildchat.allen.ai under AI2 ImpACT Licenses.Summary
AI-Generated Summary