WildChat: 실제 환경에서 수집된 100만 건의 ChatGPT 상호작용 로그
WildChat: 1M ChatGPT Interaction Logs in the Wild
May 2, 2024
저자: Wenting Zhao, Xiang Ren, Jack Hessel, Claire Cardie, Yejin Choi, Yuntian Deng
cs.AI
초록
GPT-4 및 ChatGPT와 같은 챗봇은 현재 수백만 명의 사용자에게 서비스를 제공하고 있습니다. 그러나 이러한 도구들이 실제로 사용자들에 의해 어떻게 활용되는지를 보여주는 공개 데이터셋은 여전히 부족한 상황입니다. 이러한 격차를 해소하기 위해, 우리는 온라인 사용자들에게 ChatGPT의 무료 접근권을 제공하는 대가로, 그들의 동의 하에 익명으로 채팅 기록과 요청 헤더를 수집했습니다. 이를 통해 우리는 100만 건의 사용자-ChatGPT 대화로 구성된 WildChat 코퍼스를 구축했으며, 이는 250만 건 이상의 상호작용 턴을 포함하고 있습니다. 우리는 WildChat을 다른 인기 있는 사용자-챗봇 상호작용 데이터셋과 비교했을 때, 우리의 데이터셋이 가장 다양한 사용자 프롬프트를 제공하며, 가장 많은 언어를 포함하고 있고, 연구자들이 연구할 수 있는 잠재적으로 유해한 사용 사례의 가장 풍부한 다양성을 보여준다는 사실을 발견했습니다. 타임스탬프가 기록된 채팅 기록 외에도, 우리는 데이터셋을 국가, 주, 해시된 IP 주소와 같은 인구통계학적 데이터와 요청 헤더로 보강했습니다. 이러한 보강은 다양한 지리적 지역과 시간적 차원에 걸친 사용자 행동을 더 상세히 분석할 수 있게 해줍니다. 마지막으로, 이 데이터셋은 광범위한 사용 사례를 포착하고 있기 때문에, 우리는 이 데이터셋이 지시 따르기 모델을 미세 조정하는 데 있어 잠재적인 유용성을 보여줍니다. WildChat은 AI2 ImpACT 라이선스 하에 https://wildchat.allen.ai에서 공개되었습니다.
English
Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite
their widespread use, there remains a lack of public datasets showcasing how
these tools are used by a population of users in practice. To bridge this gap,
we offered free access to ChatGPT for online users in exchange for their
affirmative, consensual opt-in to anonymously collect their chat transcripts
and request headers. From this, we compiled WildChat, a corpus of 1 million
user-ChatGPT conversations, which consists of over 2.5 million interaction
turns. We compare WildChat with other popular user-chatbot interaction
datasets, and find that our dataset offers the most diverse user prompts,
contains the largest number of languages, and presents the richest variety of
potentially toxic use-cases for researchers to study. In addition to
timestamped chat transcripts, we enrich the dataset with demographic data,
including state, country, and hashed IP addresses, alongside request headers.
This augmentation allows for more detailed analysis of user behaviors across
different geographical regions and temporal dimensions. Finally, because it
captures a broad range of use cases, we demonstrate the dataset's potential
utility in fine-tuning instruction-following models. WildChat is released at
https://wildchat.allen.ai under AI2 ImpACT Licenses.Summary
AI-Generated Summary