OpenCharacter : Entraînement de LLM de jeu de rôle personnalisables avec des personnages synthétiques à grande échelle
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas
January 26, 2025
Auteurs: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI
Résumé
Le jeu de rôle personnalisable dans les grands modèles de langage (LLM), également connu sous le nom de généralisation de personnage, suscite de plus en plus d'attention pour sa polyvalence et son efficacité en termes de coûts dans le développement et le déploiement d'agents de dialogue de jeu de rôle. Cette étude explore une approche de synthèse de données à grande échelle pour doter les LLM de capacités de généralisation de personnage. Nous commençons par synthétiser des profils de personnage à grande échelle en utilisant des personas de Persona Hub, puis explorons deux stratégies : la réécriture de réponse et la génération de réponse, pour créer des réponses d'instructions alignées sur le personnage. Pour valider l'efficacité de nos données de réglage d'instructions synthétiques pour la généralisation de personnage, nous effectuons un fine-tuning supervisé (SFT) en utilisant le modèle LLaMA-3 8B. Notre modèle le plus performant renforce le modèle d'instruction original LLaMA-3 8B et atteint des performances comparables à celles des modèles GPT-4o sur le dialogue de jeu de rôle. Nous mettons à disposition nos personnages synthétiques et nos dialogues de réglage d'instructions pour soutenir la recherche publique.
English
Customizable role-playing in large language models (LLMs), also known as
character generalization, is gaining increasing attention for its versatility
and cost-efficiency in developing and deploying role-playing dialogue agents.
This study explores a large-scale data synthesis approach to equip LLMs with
character generalization capabilities. We begin by synthesizing large-scale
character profiles using personas from Persona Hub and then explore two
strategies: response rewriting and response generation, to create
character-aligned instructional responses. To validate the effectiveness of our
synthetic instruction tuning data for character generalization, we perform
supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing
model strengthens the original LLaMA-3 8B Instruct model and achieves
performance comparable to GPT-4o models on role-playing dialogue. We release
our synthetic characters and instruction-tuning dialogues to support public
research.Summary
AI-Generated Summary