ChARM : Modélisation de récompense adaptative basée sur les caractères pour des agents de langage de jeu de rôle avancés

papers.abstract

Les Agents de Langage de Jeu de Rôle (RPLAs) visent à simuler des personnages pour des interactions homme-machine réalistes et captivantes. Cependant, les modèles de récompense traditionnels rencontrent souvent des difficultés en termes d'évolutivité et d'adaptation aux préférences conversationnelles subjectives. Nous proposons ChARM, un Modèle de Récompense Adaptatif basé sur les Actes de Personnage, qui aborde ces défis grâce à deux innovations : (1) une marge adaptative aux actes qui améliore significativement l'efficacité d'apprentissage et la généralisation, et (2) un mécanisme d'auto-évolution exploitant des données non labellisées à grande échelle pour améliorer la couverture de l'entraînement. Par ailleurs, nous introduisons RoleplayPref, le premier ensemble de données de préférences à grande échelle spécifiquement conçu pour les RPLAs, comprenant 1 108 personnages, 13 sous-catégories et 16 888 dialogues bilingues, ainsi que RoleplayEval, un benchmark d'évaluation dédié. Les résultats expérimentaux montrent une amélioration de 13 % par rapport au modèle Bradley-Terry conventionnel dans les classements de préférences. De plus, l'application des récompenses générées par ChARM aux techniques d'apprentissage des préférences (par exemple, l'optimisation directe des préférences) permet d'obtenir des résultats de pointe sur CharacterEval et RoleplayEval. Le code et l'ensemble de données sont disponibles à l'adresse https://github.com/calubkk/ChARM.

English

Role-Playing Language Agents (RPLAs) aim to simulate characters for realistic and engaging human-computer interactions. However, traditional reward models often struggle with scalability and adapting to subjective conversational preferences. We propose ChARM, a Character-based Act-adaptive Reward Model, addressing these challenges through two innovations: (1) an act-adaptive margin that significantly enhances learning efficiency and generalizability, and (2) a self-evolution mechanism leveraging large-scale unlabeled data to improve training coverage. Additionally, we introduce RoleplayPref, the first large-scale preference dataset specifically for RPLAs, featuring 1,108 characters, 13 subcategories, and 16,888 bilingual dialogues, alongside RoleplayEval, a dedicated evaluation benchmark. Experimental results show a 13% improvement over the conventional Bradley-Terry model in preference rankings. Furthermore, applying ChARM-generated rewards to preference learning techniques (e.g., direct preference optimization) achieves state-of-the-art results on CharacterEval and RoleplayEval. Code and dataset are available at https://github.com/calubkk/ChARM.

ChARM : Modélisation de récompense adaptative basée sur les caractères pour des agents de langage de jeu de rôle avancés

ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents

papers.abstract

Support