OpenCharacter: Entrenamiento de LLMs de Rol Personalizables con Personas Sintéticas a Gran Escala
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas
January 26, 2025
Autores: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI
Resumen
La personalización de roles en modelos de lenguaje grandes (LLMs), también conocida como generalización de personajes, está ganando cada vez más atención por su versatilidad y eficiencia en costos en el desarrollo e implementación de agentes de diálogo de rol. Este estudio explora un enfoque de síntesis de datos a gran escala para dotar a los LLMs con capacidades de generalización de personajes. Comenzamos sintetizando perfiles de personajes a gran escala utilizando personas de Persona Hub y luego exploramos dos estrategias: la reescritura de respuestas y la generación de respuestas, para crear respuestas instructivas alineadas con el personaje. Para validar la efectividad de nuestros datos sintéticos de ajuste de instrucciones para la generalización de personajes, realizamos un ajuste fino supervisado (SFT) utilizando el modelo LLaMA-3 8B. Nuestro modelo de mejor rendimiento refuerza el modelo original LLaMA-3 8B Instruct y logra un rendimiento comparable a los modelos GPT-4o en diálogos de rol. Publicamos nuestros personajes sintéticos y diálogos de ajuste de instrucciones para apoyar la investigación pública.
English
Customizable role-playing in large language models (LLMs), also known as
character generalization, is gaining increasing attention for its versatility
and cost-efficiency in developing and deploying role-playing dialogue agents.
This study explores a large-scale data synthesis approach to equip LLMs with
character generalization capabilities. We begin by synthesizing large-scale
character profiles using personas from Persona Hub and then explore two
strategies: response rewriting and response generation, to create
character-aligned instructional responses. To validate the effectiveness of our
synthetic instruction tuning data for character generalization, we perform
supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing
model strengthens the original LLaMA-3 8B Instruct model and achieves
performance comparable to GPT-4o models on role-playing dialogue. We release
our synthetic characters and instruction-tuning dialogues to support public
research.Summary
AI-Generated Summary