OpenCharacter: Addestramento di LLM di gioco di ruolo personalizzabili con grandi personaggi sintetici su larga scala
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas
January 26, 2025
Autori: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI
Abstract
Il gioco di ruolo personalizzabile nei grandi modelli linguistici (LLM), noto anche come generalizzazione dei personaggi, sta attirando sempre più attenzione per la sua versatilità e convenienza nello sviluppo e dispiegamento di agenti di dialogo per il gioco di ruolo. Questo studio esplora un approccio di sintesi dei dati su larga scala per dotare i LLM di capacità di generalizzazione dei personaggi. Iniziamo sintetizzando profili di personaggi su larga scala utilizzando le persone da Persona Hub e poi esploriamo due strategie: riscrittura delle risposte e generazione delle risposte, per creare risposte istruttive allineate al personaggio. Per convalidare l'efficacia dei nostri dati di sintonizzazione delle istruzioni sintetiche per la generalizzazione dei personaggi, eseguiamo un raffinamento supervisionato (SFT) utilizzando il modello LLaMA-3 8B. Il nostro modello che ha prestazioni migliori rafforza il modello originale LLaMA-3 8B Instruct e raggiunge prestazioni paragonabili ai modelli GPT-4o nel dialogo di gioco di ruolo. Rilasciamo i nostri personaggi sintetici e i dialoghi di sintonizzazione delle istruzioni per supportare la ricerca pubblica.
English
Customizable role-playing in large language models (LLMs), also known as
character generalization, is gaining increasing attention for its versatility
and cost-efficiency in developing and deploying role-playing dialogue agents.
This study explores a large-scale data synthesis approach to equip LLMs with
character generalization capabilities. We begin by synthesizing large-scale
character profiles using personas from Persona Hub and then explore two
strategies: response rewriting and response generation, to create
character-aligned instructional responses. To validate the effectiveness of our
synthetic instruction tuning data for character generalization, we perform
supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing
model strengthens the original LLaMA-3 8B Instruct model and achieves
performance comparable to GPT-4o models on role-playing dialogue. We release
our synthetic characters and instruction-tuning dialogues to support public
research.Summary
AI-Generated Summary