ChatPaper.aiChatPaper

OpenCharacter: Addestramento di LLM di gioco di ruolo personalizzabili con grandi personaggi sintetici su larga scala

OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas

January 26, 2025
Autori: Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu
cs.AI

Abstract

Il gioco di ruolo personalizzabile nei grandi modelli linguistici (LLM), noto anche come generalizzazione dei personaggi, sta attirando sempre più attenzione per la sua versatilità e convenienza nello sviluppo e dispiegamento di agenti di dialogo per il gioco di ruolo. Questo studio esplora un approccio di sintesi dei dati su larga scala per dotare i LLM di capacità di generalizzazione dei personaggi. Iniziamo sintetizzando profili di personaggi su larga scala utilizzando le persone da Persona Hub e poi esploriamo due strategie: riscrittura delle risposte e generazione delle risposte, per creare risposte istruttive allineate al personaggio. Per convalidare l'efficacia dei nostri dati di sintonizzazione delle istruzioni sintetiche per la generalizzazione dei personaggi, eseguiamo un raffinamento supervisionato (SFT) utilizzando il modello LLaMA-3 8B. Il nostro modello che ha prestazioni migliori rafforza il modello originale LLaMA-3 8B Instruct e raggiunge prestazioni paragonabili ai modelli GPT-4o nel dialogo di gioco di ruolo. Rilasciamo i nostri personaggi sintetici e i dialoghi di sintonizzazione delle istruzioni per supportare la ricerca pubblica.
English
Customizable role-playing in large language models (LLMs), also known as character generalization, is gaining increasing attention for its versatility and cost-efficiency in developing and deploying role-playing dialogue agents. This study explores a large-scale data synthesis approach to equip LLMs with character generalization capabilities. We begin by synthesizing large-scale character profiles using personas from Persona Hub and then explore two strategies: response rewriting and response generation, to create character-aligned instructional responses. To validate the effectiveness of our synthetic instruction tuning data for character generalization, we perform supervised fine-tuning (SFT) using the LLaMA-3 8B model. Our best-performing model strengthens the original LLaMA-3 8B Instruct model and achieves performance comparable to GPT-4o models on role-playing dialogue. We release our synthetic characters and instruction-tuning dialogues to support public research.

Summary

AI-Generated Summary

PDF62January 28, 2025