ChatPaper.aiChatPaper

PIPPA: Частично синтетический набор данных для диалоговых систем

PIPPA: A Partially Synthetic Conversational Dataset

August 11, 2023
Авторы: Tear Gosling, Alpin Dale, Yinhe Zheng
cs.AI

Аннотация

С появлением все более мощных больших языковых моделей наблюдается растущий интерес к их использованию для приложений, связанных с неформальным общением и ролевыми играми. Однако существующие наборы данных для диалогов и ролевых игр часто не отражают разнообразные и тонкие взаимодействия, которые обычно демонстрируют участники ролевых игр в реальном мире. Чтобы устранить это ограничение и внести вклад в быстро развивающуюся область, мы представляем частично синтетический набор данных под названием PIPPA (Personal Interaction Pairs between People and AI — Пары личных взаимодействий между людьми и ИИ). PIPPA является результатом краудсорсингового проекта, организованного сообществом энтузиастов ролевых игр. Набор данных включает более 1 миллиона реплик, распределенных по 26 000 сессий диалогов, и предоставляет богатый ресурс для исследователей и разработчиков ИИ, позволяющий изучать и совершенствовать системы диалогового ИИ в контексте ролевых сценариев.
English
With the emergence of increasingly powerful large language models, there is a burgeoning interest in leveraging these models for casual conversation and role-play applications. However, existing conversational and role-playing datasets often fail to capture the diverse and nuanced interactions typically exhibited by real-world role-play participants. To address this limitation and contribute to the rapidly growing field, we introduce a partially-synthetic dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA is a result of a community-driven crowdsourcing effort involving a group of role-play enthusiasts. The dataset comprises over 1 million utterances that are distributed across 26,000 conversation sessions and provides a rich resource for researchers and AI developers to explore and refine conversational AI systems in the context of role-play scenarios.
PDF322December 15, 2024