ChARM: Karaktergebaseerd, act-adaptief beloningsmodel voor geavanceerde taalagentschappen in rollenspellen
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents
May 29, 2025
Auteurs: Feiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li
cs.AI
Samenvatting
Role-Playing Language Agents (RPLAs) hebben als doel personages te simuleren voor realistische en boeiende mens-computerinteracties. Traditionele beloningsmodellen hebben echter vaak moeite met schaalbaarheid en het aanpassen aan subjectieve gespreksvoorkeuren. Wij stellen ChARM voor, een Character-based Act-adaptive Reward Model, dat deze uitdagingen aanpakt via twee innovaties: (1) een act-adaptieve marge die de leer efficiëntie en generaliseerbaarheid aanzienlijk verbetert, en (2) een zelf-evolutiemechanisme dat gebruikmaakt van grootschalige ongelabelde data om de trainingsdekking te verbeteren. Daarnaast introduceren we RoleplayPref, de eerste grootschalige voorkeursdataset specifiek voor RPLAs, met 1.108 personages, 13 subcategorieën en 16.888 tweetalige dialogen, naast RoleplayEval, een toegewijd evaluatiebenchmark. Experimentele resultaten tonen een verbetering van 13% ten opzichte van het conventionele Bradley-Terry-model in voorkeursrangschikkingen. Bovendien behaalt het toepassen van door ChARM gegenereerde beloningen op voorkeursleertechnieken (bijvoorbeeld direct preference optimization) state-of-the-art resultaten op CharacterEval en RoleplayEval. Code en dataset zijn beschikbaar op https://github.com/calubkk/ChARM.
English
Role-Playing Language Agents (RPLAs) aim to simulate characters for realistic
and engaging human-computer interactions. However, traditional reward models
often struggle with scalability and adapting to subjective conversational
preferences. We propose ChARM, a Character-based Act-adaptive Reward Model,
addressing these challenges through two innovations: (1) an act-adaptive margin
that significantly enhances learning efficiency and generalizability, and (2) a
self-evolution mechanism leveraging large-scale unlabeled data to improve
training coverage. Additionally, we introduce RoleplayPref, the first
large-scale preference dataset specifically for RPLAs, featuring 1,108
characters, 13 subcategories, and 16,888 bilingual dialogues, alongside
RoleplayEval, a dedicated evaluation benchmark. Experimental results show a 13%
improvement over the conventional Bradley-Terry model in preference rankings.
Furthermore, applying ChARM-generated rewards to preference learning techniques
(e.g., direct preference optimization) achieves state-of-the-art results on
CharacterEval and RoleplayEval. Code and dataset are available at
https://github.com/calubkk/ChARM.