ChARM : Modélisation de récompense adaptative basée sur les caractères pour des agents de langage de jeu de rôle avancés
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents
May 29, 2025
Auteurs: Feiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li
cs.AI
Résumé
Les Agents de Langage de Jeu de Rôle (RPLAs) visent à simuler des personnages pour des interactions homme-machine réalistes et captivantes. Cependant, les modèles de récompense traditionnels rencontrent souvent des difficultés en termes d'évolutivité et d'adaptation aux préférences conversationnelles subjectives. Nous proposons ChARM, un Modèle de Récompense Adaptatif basé sur les Actes de Personnage, qui aborde ces défis grâce à deux innovations : (1) une marge adaptative aux actes qui améliore significativement l'efficacité d'apprentissage et la généralisation, et (2) un mécanisme d'auto-évolution exploitant des données non labellisées à grande échelle pour améliorer la couverture de l'entraînement. Par ailleurs, nous introduisons RoleplayPref, le premier ensemble de données de préférences à grande échelle spécifiquement conçu pour les RPLAs, comprenant 1 108 personnages, 13 sous-catégories et 16 888 dialogues bilingues, ainsi que RoleplayEval, un benchmark d'évaluation dédié. Les résultats expérimentaux montrent une amélioration de 13 % par rapport au modèle Bradley-Terry conventionnel dans les classements de préférences. De plus, l'application des récompenses générées par ChARM aux techniques d'apprentissage des préférences (par exemple, l'optimisation directe des préférences) permet d'obtenir des résultats de pointe sur CharacterEval et RoleplayEval. Le code et l'ensemble de données sont disponibles à l'adresse https://github.com/calubkk/ChARM.
English
Role-Playing Language Agents (RPLAs) aim to simulate characters for realistic
and engaging human-computer interactions. However, traditional reward models
often struggle with scalability and adapting to subjective conversational
preferences. We propose ChARM, a Character-based Act-adaptive Reward Model,
addressing these challenges through two innovations: (1) an act-adaptive margin
that significantly enhances learning efficiency and generalizability, and (2) a
self-evolution mechanism leveraging large-scale unlabeled data to improve
training coverage. Additionally, we introduce RoleplayPref, the first
large-scale preference dataset specifically for RPLAs, featuring 1,108
characters, 13 subcategories, and 16,888 bilingual dialogues, alongside
RoleplayEval, a dedicated evaluation benchmark. Experimental results show a 13%
improvement over the conventional Bradley-Terry model in preference rankings.
Furthermore, applying ChARM-generated rewards to preference learning techniques
(e.g., direct preference optimization) achieves state-of-the-art results on
CharacterEval and RoleplayEval. Code and dataset are available at
https://github.com/calubkk/ChARM.