OpenCharacter: Обучение настраиваемых ролевых LLM с масштабными синтетическими персонажами
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas
January 26, 2025
Авторы: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI
Аннотация
Настраиваемая ролевая игра в больших языковых моделях (LLM), также известная как обобщение персонажа, привлекает все больше внимания благодаря своей универсальности и экономичности в разработке и развертывании диалоговых агентов для ролевых игр. В данном исследовании исследуется подход синтеза данных большого масштаба для оснащения LLM возможностями обобщения персонажа. Мы начинаем с синтеза профилей персонажей большого масштаба, используя персоны из Persona Hub, а затем исследуем две стратегии: переписывание ответов и генерацию ответов, для создания инструкционных ответов, соответствующих персонажу. Для проверки эффективности наших синтетических данных настройки инструкций для обобщения персонажа мы выполняем надзорное дообучение (SFT) с использованием модели LLaMA-3 8B. Наша лучшая модель укрепляет исходную модель LLaMA-3 8B Instruct и достигает производительности, сравнимой с моделями GPT-4o в диалогах для ролевых игр. Мы предоставляем наши синтетические персонажи и диалоги настройки инструкций для поддержки общественного исследования.
English
Customizable role-playing in large language models (LLMs), also known as
character generalization, is gaining increasing attention for its versatility
and cost-efficiency in developing and deploying role-playing dialogue agents.
This study explores a large-scale data synthesis approach to equip LLMs with
character generalization capabilities. We begin by synthesizing large-scale
character profiles using personas from Persona Hub and then explore two
strategies: response rewriting and response generation, to create
character-aligned instructional responses. To validate the effectiveness of our
synthetic instruction tuning data for character generalization, we perform
supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing
model strengthens the original LLaMA-3 8B Instruct model and achieves
performance comparable to GPT-4o models on role-playing dialogue. We release
our synthetic characters and instruction-tuning dialogues to support public
research.Summary
AI-Generated Summary