ChatPaper.aiChatPaper

OpenCharacter: Entrenamiento de LLMs de Rol Personalizables con Personas Sintéticas a Gran Escala

OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas

January 26, 2025
Autores: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI

Resumen

La personalización de roles en modelos de lenguaje grandes (LLMs), también conocida como generalización de personajes, está ganando cada vez más atención por su versatilidad y eficiencia en costos en el desarrollo e implementación de agentes de diálogo de rol. Este estudio explora un enfoque de síntesis de datos a gran escala para dotar a los LLMs con capacidades de generalización de personajes. Comenzamos sintetizando perfiles de personajes a gran escala utilizando personas de Persona Hub y luego exploramos dos estrategias: la reescritura de respuestas y la generación de respuestas, para crear respuestas instructivas alineadas con el personaje. Para validar la efectividad de nuestros datos sintéticos de ajuste de instrucciones para la generalización de personajes, realizamos un ajuste fino supervisado (SFT) utilizando el modelo LLaMA-3 8B. Nuestro modelo de mejor rendimiento refuerza el modelo original LLaMA-3 8B Instruct y logra un rendimiento comparable a los modelos GPT-4o en diálogos de rol. Publicamos nuestros personajes sintéticos y diálogos de ajuste de instrucciones para apoyar la investigación pública.
English
Customizable role-playing in large language models (LLMs), also known as character generalization, is gaining increasing attention for its versatility and cost-efficiency in developing and deploying role-playing dialogue agents. This study explores a large-scale data synthesis approach to equip LLMs with character generalization capabilities. We begin by synthesizing large-scale character profiles using personas from Persona Hub and then explore two strategies: response rewriting and response generation, to create character-aligned instructional responses. To validate the effectiveness of our synthetic instruction tuning data for character generalization, we perform supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing model strengthens the original LLaMA-3 8B Instruct model and achieves performance comparable to GPT-4o models on role-playing dialogue. We release our synthetic characters and instruction-tuning dialogues to support public research.

Summary

AI-Generated Summary

PDF62January 28, 2025