ChARM: Modelado de Recompensas Adaptativas por Actos Basado en Caracteres para Agentes de Lenguaje de Rol Avanzados
ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents
May 29, 2025
Autores: Feiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li
cs.AI
Resumen
Los Agentes de Lenguaje Basados en Roles (RPLAs, por sus siglas en inglés) tienen como objetivo simular personajes para interacciones humano-computadora realistas y atractivas. Sin embargo, los modelos de recompensa tradicionales a menudo enfrentan dificultades en cuanto a escalabilidad y adaptación a preferencias conversacionales subjetivas. Proponemos ChARM, un Modelo de Recompensa Adaptativo Basado en Actos de Personajes, que aborda estos desafíos a través de dos innovaciones: (1) un margen adaptativo a los actos que mejora significativamente la eficiencia de aprendizaje y la generalización, y (2) un mecanismo de auto-evolución que aprovecha datos no etiquetados a gran escala para mejorar la cobertura del entrenamiento. Además, presentamos RoleplayPref, el primer conjunto de datos de preferencias a gran escala específicamente diseñado para RPLAs, que incluye 1,108 personajes, 13 subcategorías y 16,888 diálogos bilingües, junto con RoleplayEval, un punto de referencia de evaluación dedicado. Los resultados experimentales muestran una mejora del 13% sobre el modelo convencional de Bradley-Terry en la clasificación de preferencias. Además, la aplicación de recompensas generadas por ChARM a técnicas de aprendizaje de preferencias (por ejemplo, optimización directa de preferencias) logra resultados de vanguardia en CharacterEval y RoleplayEval. El código y el conjunto de datos están disponibles en https://github.com/calubkk/ChARM.
English
Role-Playing Language Agents (RPLAs) aim to simulate characters for realistic
and engaging human-computer interactions. However, traditional reward models
often struggle with scalability and adapting to subjective conversational
preferences. We propose ChARM, a Character-based Act-adaptive Reward Model,
addressing these challenges through two innovations: (1) an act-adaptive margin
that significantly enhances learning efficiency and generalizability, and (2) a
self-evolution mechanism leveraging large-scale unlabeled data to improve
training coverage. Additionally, we introduce RoleplayPref, the first
large-scale preference dataset specifically for RPLAs, featuring 1,108
characters, 13 subcategories, and 16,888 bilingual dialogues, alongside
RoleplayEval, a dedicated evaluation benchmark. Experimental results show a 13%
improvement over the conventional Bradley-Terry model in preference rankings.
Furthermore, applying ChARM-generated rewards to preference learning techniques
(e.g., direct preference optimization) achieves state-of-the-art results on
CharacterEval and RoleplayEval. Code and dataset are available at
https://github.com/calubkk/ChARM.