ChatPaper.aiChatPaper

PIPPA : Un ensemble de données conversationnelles partiellement synthétiques

PIPPA: A Partially Synthetic Conversational Dataset

August 11, 2023
Auteurs: Tear Gosling, Alpin Dale, Yinhe Zheng
cs.AI

Résumé

Avec l'émergence de modèles de langage de plus en plus puissants, l'intérêt pour exploiter ces modèles dans des applications de conversation informelle et de jeu de rôle ne cesse de croître. Cependant, les ensembles de données conversationnels et de jeu de rôle existants échouent souvent à capturer la diversité et les nuances des interactions typiquement observées chez les participants à des jeux de rôle dans le monde réel. Pour pallier cette limitation et contribuer à ce domaine en pleine expansion, nous introduisons un ensemble de données partiellement synthétique nommé PIPPA (Personal Interaction Pairs between People and AI). PIPPA est le fruit d'un effort communautaire de crowdsourcing impliquant un groupe d'enthousiastes du jeu de rôle. L'ensemble de données comprend plus d'un million d'énoncés répartis sur 26 000 sessions de conversation, offrant ainsi une ressource riche pour les chercheurs et les développeurs en IA afin d'explorer et d'affiner les systèmes de conversation artificielle dans le contexte de scénarios de jeu de rôle.
English
With the emergence of increasingly powerful large language models, there is a burgeoning interest in leveraging these models for casual conversation and role-play applications. However, existing conversational and role-playing datasets often fail to capture the diverse and nuanced interactions typically exhibited by real-world role-play participants. To address this limitation and contribute to the rapidly growing field, we introduce a partially-synthetic dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA is a result of a community-driven crowdsourcing effort involving a group of role-play enthusiasts. The dataset comprises over 1 million utterances that are distributed across 26,000 conversation sessions and provides a rich resource for researchers and AI developers to explore and refine conversational AI systems in the context of role-play scenarios.
PDF322December 15, 2024