OpenCharacter: Treinando LLMs de interpretação personalizáveis com personagens sintéticas em larga escala
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas
January 26, 2025
Autores: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI
Resumo
O role-playing personalizável em grandes modelos de linguagem (LLMs), também conhecido como generalização de personagens, está ganhando cada vez mais atenção por sua versatilidade e eficiência de custos no desenvolvimento e implantação de agentes de diálogo de role-playing. Este estudo explora uma abordagem de síntese de dados em grande escala para equipar LLMs com capacidades de generalização de personagens. Começamos sintetizando perfis de personagens em grande escala usando personas do Persona Hub e depois exploramos duas estratégias: reformulação de respostas e geração de respostas, para criar respostas instrucionais alinhadas com o personagem. Para validar a eficácia de nossos dados de ajuste de instrução sintética para generalização de personagens, realizamos um ajuste fino supervisionado (SFT) usando o modelo LLaMA-3 8B. Nosso modelo com melhor desempenho fortalece o modelo original LLaMA-3 8B Instruct e alcança desempenho comparável aos modelos GPT-4o em diálogos de role-playing. Disponibilizamos nossos personagens sintéticos e diálogos de ajuste de instrução para apoiar a pesquisa pública.
English
Customizable role-playing in large language models (LLMs), also known as
character generalization, is gaining increasing attention for its versatility
and cost-efficiency in developing and deploying role-playing dialogue agents.
This study explores a large-scale data synthesis approach to equip LLMs with
character generalization capabilities. We begin by synthesizing large-scale
character profiles using personas from Persona Hub and then explore two
strategies: response rewriting and response generation, to create
character-aligned instructional responses. To validate the effectiveness of our
synthetic instruction tuning data for character generalization, we perform
supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing
model strengthens the original LLaMA-3 8B Instruct model and achieves
performance comparable to GPT-4o models on role-playing dialogue. We release
our synthetic characters and instruction-tuning dialogues to support public
research.Summary
AI-Generated Summary