PIPPA: Ein teilweise synthetischer Konversationsdatensatz
PIPPA: A Partially Synthetic Conversational Dataset
August 11, 2023
Autoren: Tear Gosling, Alpin Dale, Yinhe Zheng
cs.AI
Zusammenfassung
Mit dem Aufkommen immer leistungsfähigerer großer Sprachmodelle wächst das Interesse daran, diese Modelle für zwanglose Konversationen und Rollenspielanwendungen zu nutzen. Allerdings erfassen bestehende Konversations- und Rollenspieldatensätze oft nicht die vielfältigen und nuancierten Interaktionen, die typischerweise von Teilnehmern im realen Rollenspiel gezeigt werden. Um diese Einschränkung zu überwinden und einen Beitrag zum rasant wachsenden Forschungsgebiet zu leisten, stellen wir einen teilweise synthetischen Datensatz namens PIPPA (Personal Interaction Pairs between People and AI) vor. PIPPA ist das Ergebnis einer gemeinschaftlichen Crowdsourcing-Initiative, an der eine Gruppe von Rollenspielenthusiasten beteiligt war. Der Datensatz umfasst über 1 Million Äußerungen, die auf 26.000 Konversationssitzungen verteilt sind, und bietet eine umfangreiche Ressource für Forscher und KI-Entwickler, um Konversations-KI-Systeme im Kontext von Rollenspielszenarien zu erforschen und zu verfeinern.
English
With the emergence of increasingly powerful large language models, there is a
burgeoning interest in leveraging these models for casual conversation and
role-play applications. However, existing conversational and role-playing
datasets often fail to capture the diverse and nuanced interactions typically
exhibited by real-world role-play participants. To address this limitation and
contribute to the rapidly growing field, we introduce a partially-synthetic
dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA
is a result of a community-driven crowdsourcing effort involving a group of
role-play enthusiasts. The dataset comprises over 1 million utterances that are
distributed across 26,000 conversation sessions and provides a rich resource
for researchers and AI developers to explore and refine conversational AI
systems in the context of role-play scenarios.