PIPPA: Un dataset conversazionale parzialmente sintetico
PIPPA: A Partially Synthetic Conversational Dataset
August 11, 2023
Autori: Tear Gosling, Alpin Dale, Yinhe Zheng
cs.AI
Abstract
Con l'emergere di modelli linguistici di grandi dimensioni sempre più potenti, si sta sviluppando un crescente interesse nell'utilizzare questi modelli per applicazioni di conversazione casuale e di role-play. Tuttavia, i dataset esistenti per conversazioni e role-play spesso non riescono a catturare le interazioni diversificate e sfumate tipicamente mostrate dai partecipanti al role-play nel mondo reale. Per affrontare questa limitazione e contribuire al campo in rapida crescita, introduciamo un dataset parzialmente sintetico denominato PIPPA (Personal Interaction Pairs between People and AI). PIPPA è il risultato di uno sforzo di crowdsourcing guidato dalla comunità che coinvolge un gruppo di appassionati di role-play. Il dataset comprende oltre 1 milione di espressioni distribuite in 26.000 sessioni di conversazione e fornisce una risorsa preziosa per i ricercatori e gli sviluppatori di AI per esplorare e perfezionare i sistemi di intelligenza artificiale conversazionale nel contesto di scenari di role-play.
English
With the emergence of increasingly powerful large language models, there is a
burgeoning interest in leveraging these models for casual conversation and
role-play applications. However, existing conversational and role-playing
datasets often fail to capture the diverse and nuanced interactions typically
exhibited by real-world role-play participants. To address this limitation and
contribute to the rapidly growing field, we introduce a partially-synthetic
dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA
is a result of a community-driven crowdsourcing effort involving a group of
role-play enthusiasts. The dataset comprises over 1 million utterances that are
distributed across 26,000 conversation sessions and provides a rich resource
for researchers and AI developers to explore and refine conversational AI
systems in the context of role-play scenarios.