ChatPaper.aiChatPaper

OpenCharacter: Treinando LLMs de interpretação personalizáveis com personagens sintéticas em larga escala

OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas

January 26, 2025
Autores: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI

Resumo

O role-playing personalizável em grandes modelos de linguagem (LLMs), também conhecido como generalização de personagens, está ganhando cada vez mais atenção por sua versatilidade e eficiência de custos no desenvolvimento e implantação de agentes de diálogo de role-playing. Este estudo explora uma abordagem de síntese de dados em grande escala para equipar LLMs com capacidades de generalização de personagens. Começamos sintetizando perfis de personagens em grande escala usando personas do Persona Hub e depois exploramos duas estratégias: reformulação de respostas e geração de respostas, para criar respostas instrucionais alinhadas com o personagem. Para validar a eficácia de nossos dados de ajuste de instrução sintética para generalização de personagens, realizamos um ajuste fino supervisionado (SFT) usando o modelo LLaMA-3 8B. Nosso modelo com melhor desempenho fortalece o modelo original LLaMA-3 8B Instruct e alcança desempenho comparável aos modelos GPT-4o em diálogos de role-playing. Disponibilizamos nossos personagens sintéticos e diálogos de ajuste de instrução para apoiar a pesquisa pública.
English
Customizable role-playing in large language models (LLMs), also known as character generalization, is gaining increasing attention for its versatility and cost-efficiency in developing and deploying role-playing dialogue agents. This study explores a large-scale data synthesis approach to equip LLMs with character generalization capabilities. We begin by synthesizing large-scale character profiles using personas from Persona Hub and then explore two strategies: response rewriting and response generation, to create character-aligned instructional responses. To validate the effectiveness of our synthetic instruction tuning data for character generalization, we perform supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing model strengthens the original LLaMA-3 8B Instruct model and achieves performance comparable to GPT-4o models on role-playing dialogue. We release our synthetic characters and instruction-tuning dialogues to support public research.

Summary

AI-Generated Summary

PDF62January 28, 2025