WildChat: 1 millón de registros de interacciones con ChatGPT en entornos reales
WildChat: 1M ChatGPT Interaction Logs in the Wild
May 2, 2024
Autores: Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng
cs.AI
Resumen
Chatbots como GPT-4 y ChatGPT ahora atienden a millones de usuarios. A pesar de su uso generalizado, existe una falta de conjuntos de datos públicos que muestren cómo estas herramientas son utilizadas por una población de usuarios en la práctica. Para cerrar esta brecha, ofrecimos acceso gratuito a ChatGPT a usuarios en línea a cambio de su consentimiento afirmativo y voluntario para recopilar de manera anónima sus transcripciones de chat y los encabezados de sus solicitudes. A partir de esto, compilamos WildChat, un corpus de 1 millón de conversaciones entre usuarios y ChatGPT, que consta de más de 2.5 millones de turnos de interacción. Comparamos WildChat con otros conjuntos de datos populares de interacciones entre usuarios y chatbots, y encontramos que nuestro conjunto de datos ofrece las indicaciones de usuarios más diversas, contiene el mayor número de idiomas y presenta la variedad más rica de casos de uso potencialmente tóxicos para que los investigadores estudien. Además de las transcripciones de chat con marcas de tiempo, enriquecemos el conjunto de datos con datos demográficos, incluyendo estado, país y direcciones IP hasheadas, junto con los encabezados de las solicitudes. Esta ampliación permite un análisis más detallado de los comportamientos de los usuarios en diferentes regiones geográficas y dimensiones temporales. Finalmente, debido a que captura una amplia gama de casos de uso, demostramos la utilidad potencial del conjunto de datos en el ajuste fino de modelos que siguen instrucciones. WildChat se publica en https://wildchat.allen.ai bajo las licencias AI2 ImpACT.
English
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite
their widespread use, there remains a lack of public datasets showcasing how
these tools are used by a population of users in practice. To bridge this gap,
we offered free access to ChatGPT for online users in exchange for their
affirmative, consensual opt-in to anonymously collect their chat transcripts
and request headers. From this, we compiled WildChat, a corpus of 1 million
user-ChatGPT conversations, which consists of over 2.5 million interaction
turns. We compare WildChat with other popular user-chatbot interaction
datasets, and find that our dataset offers the most diverse user prompts,
contains the largest number of languages, and presents the richest variety of
potentially toxic use-cases for researchers to study. In addition to
timestamped chat transcripts, we enrich the dataset with demographic data,
including state, country, and hashed IP addresses, alongside request headers.
This augmentation allows for more detailed analysis of user behaviors across
different geographical regions and temporal dimensions. Finally, because it
captures a broad range of use cases, we demonstrate the dataset's potential
utility in fine-tuning instruction-following models. WildChat is released at
https://wildchat.allen.ai under AI2 ImpACT Licenses.Summary
AI-Generated Summary