ChatPaper.aiChatPaper

PIPPA: Um Conjunto de Dados Conversacionais Parcialmente Sintético

PIPPA: A Partially Synthetic Conversational Dataset

August 11, 2023
Autores: Tear Gosling, Alpin Dale, Yinhe Zheng
cs.AI

Resumo

Com o surgimento de modelos de linguagem cada vez mais poderosos, há um crescente interesse em aproveitar esses modelos para aplicações de conversação casual e role-play. No entanto, os conjuntos de dados existentes para conversação e role-play frequentemente não capturam as interações diversas e nuances típicas exibidas por participantes de role-play no mundo real. Para abordar essa limitação e contribuir para o campo em rápido crescimento, introduzimos um conjunto de dados parcialmente sintético chamado PIPPA (Personal Interaction Pairs between People and AI). O PIPPA é resultado de um esforço colaborativo de crowdsourcing envolvendo um grupo de entusiastas de role-play. O conjunto de dados compreende mais de 1 milhão de enunciados, distribuídos em 26.000 sessões de conversação, e oferece um recurso valioso para pesquisadores e desenvolvedores de IA explorarem e refinarem sistemas de IA conversacional no contexto de cenários de role-play.
English
With the emergence of increasingly powerful large language models, there is a burgeoning interest in leveraging these models for casual conversation and role-play applications. However, existing conversational and role-playing datasets often fail to capture the diverse and nuanced interactions typically exhibited by real-world role-play participants. To address this limitation and contribute to the rapidly growing field, we introduce a partially-synthetic dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA is a result of a community-driven crowdsourcing effort involving a group of role-play enthusiasts. The dataset comprises over 1 million utterances that are distributed across 26,000 conversation sessions and provides a rich resource for researchers and AI developers to explore and refine conversational AI systems in the context of role-play scenarios.
PDF322December 15, 2024