ChARM: Karaktergebaseerd, act-adaptief beloningsmodel voor geavanceerde taalagentschappen in rollenspellen

Samenvatting

Role-Playing Language Agents (RPLAs) hebben als doel personages te simuleren voor realistische en boeiende mens-computerinteracties. Traditionele beloningsmodellen hebben echter vaak moeite met schaalbaarheid en het aanpassen aan subjectieve gespreksvoorkeuren. Wij stellen ChARM voor, een Character-based Act-adaptive Reward Model, dat deze uitdagingen aanpakt via twee innovaties: (1) een act-adaptieve marge die de leer efficiëntie en generaliseerbaarheid aanzienlijk verbetert, en (2) een zelf-evolutiemechanisme dat gebruikmaakt van grootschalige ongelabelde data om de trainingsdekking te verbeteren. Daarnaast introduceren we RoleplayPref, de eerste grootschalige voorkeursdataset specifiek voor RPLAs, met 1.108 personages, 13 subcategorieën en 16.888 tweetalige dialogen, naast RoleplayEval, een toegewijd evaluatiebenchmark. Experimentele resultaten tonen een verbetering van 13% ten opzichte van het conventionele Bradley-Terry-model in voorkeursrangschikkingen. Bovendien behaalt het toepassen van door ChARM gegenereerde beloningen op voorkeursleertechnieken (bijvoorbeeld direct preference optimization) state-of-the-art resultaten op CharacterEval en RoleplayEval. Code en dataset zijn beschikbaar op https://github.com/calubkk/ChARM.

English

Role-Playing Language Agents (RPLAs) aim to simulate characters for realistic and engaging human-computer interactions. However, traditional reward models often struggle with scalability and adapting to subjective conversational preferences. We propose ChARM, a Character-based Act-adaptive Reward Model, addressing these challenges through two innovations: (1) an act-adaptive margin that significantly enhances learning efficiency and generalizability, and (2) a self-evolution mechanism leveraging large-scale unlabeled data to improve training coverage. Additionally, we introduce RoleplayPref, the first large-scale preference dataset specifically for RPLAs, featuring 1,108 characters, 13 subcategories, and 16,888 bilingual dialogues, alongside RoleplayEval, a dedicated evaluation benchmark. Experimental results show a 13% improvement over the conventional Bradley-Terry model in preference rankings. Furthermore, applying ChARM-generated rewards to preference learning techniques (e.g., direct preference optimization) achieves state-of-the-art results on CharacterEval and RoleplayEval. Code and dataset are available at https://github.com/calubkk/ChARM.

ChARM: Karaktergebaseerd, act-adaptief beloningsmodel voor geavanceerde taalagentschappen in rollenspellen

ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents

Samenvatting

Support