PIPPA: Un conjunto de datos conversacionales parcialmente sintético
PIPPA: A Partially Synthetic Conversational Dataset
August 11, 2023
Autores: Tear Gosling, Alpin Dale, Yinhe Zheng
cs.AI
Resumen
Con el surgimiento de modelos de lenguaje cada vez más potentes, existe un creciente interés en aprovechar estos modelos para aplicaciones de conversación casual y juegos de rol. Sin embargo, los conjuntos de datos existentes para conversaciones y juegos de rol a menudo no logran capturar las interacciones diversas y matizadas que suelen exhibir los participantes de juegos de rol en el mundo real. Para abordar esta limitación y contribuir a este campo en rápido crecimiento, presentamos un conjunto de datos parcialmente sintético llamado PIPPA (Pares de Interacción Personal entre Personas e IA). PIPPA es el resultado de un esfuerzo de crowdsourcing impulsado por la comunidad que involucra a un grupo de entusiastas de los juegos de rol. El conjunto de datos comprende más de 1 millón de enunciados distribuidos en 26,000 sesiones de conversación y ofrece un recurso valioso para que investigadores y desarrolladores de IA exploren y perfeccionen sistemas de IA conversacional en el contexto de escenarios de juegos de rol.
English
With the emergence of increasingly powerful large language models, there is a
burgeoning interest in leveraging these models for casual conversation and
role-play applications. However, existing conversational and role-playing
datasets often fail to capture the diverse and nuanced interactions typically
exhibited by real-world role-play participants. To address this limitation and
contribute to the rapidly growing field, we introduce a partially-synthetic
dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA
is a result of a community-driven crowdsourcing effort involving a group of
role-play enthusiasts. The dataset comprises over 1 million utterances that are
distributed across 26,000 conversation sessions and provides a rich resource
for researchers and AI developers to explore and refine conversational AI
systems in the context of role-play scenarios.