ChatPaper.aiChatPaper

PIPPA: Een gedeeltelijk synthetische conversatiedataset

PIPPA: A Partially Synthetic Conversational Dataset

August 11, 2023
Auteurs: Tear Gosling, Alpin Dale, Yinhe Zheng
cs.AI

Samenvatting

Met de opkomst van steeds krachtigere grote taalmodelen is er een groeiende interesse in het benutten van deze modellen voor informele gesprekken en rollenspeltoepassingen. Bestaande datasets voor gesprekken en rollenspel slagen er echter vaak niet in om de diverse en genuanceerde interacties vast te leggen die typisch worden vertoond door deelnemers aan rollenspellen in de echte wereld. Om deze beperking aan te pakken en bij te dragen aan het snelgroeiende vakgebied, introduceren we een gedeeltelijk synthetische dataset genaamd PIPPA (Personal Interaction Pairs between People and AI). PIPPA is het resultaat van een gemeenschapsgedreven crowdsourcing-inspanning waarbij een groep rollenspelenthousiastelingen betrokken was. De dataset omvat meer dan 1 miljoen uitingen, verdeeld over 26.000 gespreksessies, en biedt een rijke bron voor onderzoekers en AI-ontwikkelaars om conversatie-AI-systemen te verkennen en te verfijnen in de context van rollenspelscenario's.
English
With the emergence of increasingly powerful large language models, there is a burgeoning interest in leveraging these models for casual conversation and role-play applications. However, existing conversational and role-playing datasets often fail to capture the diverse and nuanced interactions typically exhibited by real-world role-play participants. To address this limitation and contribute to the rapidly growing field, we introduce a partially-synthetic dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA is a result of a community-driven crowdsourcing effort involving a group of role-play enthusiasts. The dataset comprises over 1 million utterances that are distributed across 26,000 conversation sessions and provides a rich resource for researchers and AI developers to explore and refine conversational AI systems in the context of role-play scenarios.
PDF322December 15, 2024