Генерация достоверных диалоговых наборов данных на основе персонажей с использованием крупных языковых моделей
Faithful Persona-based Conversational Dataset Generation with Large Language Models
December 15, 2023
Авторы: Pegah Jandaghi, XiangHai Sheng, Xinyi Bai, Jay Pujara, Hakim Sidahmed
cs.AI
Аннотация
Высококачественные диалоговые наборы данных крайне важны для разработки ИИ-моделей, способных эффективно взаимодействовать с пользователями. Одним из способов углубления взаимодействия между чат-ботом и пользователем является использование персонажей — аспектов личности пользователя, которые дают представление о его характере, мотивах и поведении. Обучение моделей обработки естественного языка (NLP) на разнообразных и всесторонних наборах данных, основанных на персонажах, может привести к созданию диалоговых моделей, которые устанавливают более глубокую связь с пользователем и поддерживают его вовлеченность. В данной работе мы используем возможности крупных языковых моделей (LLM) для создания обширного и качественного диалогового набора данных на основе начального набора. Мы предлагаем архитектурный фреймворк "Генератор-Критик" для расширения исходного набора данных с одновременным улучшением качества диалогов. Генератор представляет собой LLM, которая генерирует диалоги. Критик состоит из ансамбля экспертных LLM, которые контролируют качество сгенерированных диалогов. Эти эксперты выбирают лучшие сгенерированные диалоги, которые затем используются для улучшения Генератора. Мы представляем Synthetic-Persona-Chat, состоящий из 20 тысяч диалогов, созданных на основе Persona-Chat. Мы оцениваем качество Synthetic-Persona-Chat и нашего фреймворка генерации по различным параметрам в ходе обширных экспериментов и наблюдаем, что уровень проигрыша Synthetic-Persona-Chat по сравнению с Persona-Chat в тесте Тьюринга снижается с 17,2% до 8,8% за три итерации.
English
High-quality conversational datasets are essential for developing AI models
that can communicate with users. One way to foster deeper interactions between
a chatbot and its user is through personas, aspects of the user's character
that provide insights into their personality, motivations, and behaviors.
Training Natural Language Processing (NLP) models on a diverse and
comprehensive persona-based dataset can lead to conversational models that
create a deeper connection with the user, and maintain their engagement. In
this paper, we leverage the power of Large Language Models (LLMs) to create a
large, high-quality conversational dataset from a seed dataset. We propose a
Generator-Critic architecture framework to expand the initial dataset, while
improving the quality of its conversations. The Generator is an LLM prompted to
output conversations. The Critic consists of a mixture of expert LLMs that
control the quality of the generated conversations. These experts select the
best generated conversations, which we then use to improve the Generator. We
release Synthetic-Persona-Chat, consisting of 20k conversations seeded from
Persona-Chat. We evaluate the quality of Synthetic-Persona-Chat and our
generation framework on different dimensions through extensive experiments, and
observe that the losing rate of Synthetic-Persona-Chat against Persona-Chat
during Turing test decreases from 17.2% to 8.8% over three iterations.