ChatPaper.aiChatPaper

ChARM: Zeichenbasierte, handlungsadaptive Belohnungsmodellierung für fortschrittliche rollenspielbasierte Sprachagenten

ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents

May 29, 2025
Autoren: Feiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li
cs.AI

Zusammenfassung

Role-Playing Language Agents (RPLAs) zielen darauf ab, Charaktere für realistische und ansprechende Mensch-Computer-Interaktionen zu simulieren. Traditionelle Belohnungsmodelle haben jedoch oft Schwierigkeiten mit Skalierbarkeit und der Anpassung an subjektive Konversationspräferenzen. Wir schlagen ChARM vor, ein Character-based Act-adaptive Reward Model, das diese Herausforderungen durch zwei Innovationen adressiert: (1) einen aktadaptiven Rand, der die Lerneffizienz und Generalisierbarkeit erheblich verbessert, und (2) einen Selbstentwicklungsmechanismus, der groß angelegte unmarkierte Daten nutzt, um die Trainingsabdeckung zu verbessern. Zusätzlich führen wir RoleplayPref ein, den ersten groß angelegten Präferenzdatensatz speziell für RPLAs, der 1.108 Charaktere, 13 Unterkategorien und 16.888 zweisprachige Dialoge umfasst, sowie RoleplayEval, ein spezielles Evaluierungsbenchmark. Experimentelle Ergebnisse zeigen eine Verbesserung von 13 % gegenüber dem konventionellen Bradley-Terry-Modell in der Präferenzrangfolge. Darüber hinaus erzielt die Anwendung von ChARM-generierten Belohnungen auf Präferenzlernverfahren (z. B. Direct Preference Optimization) state-of-the-art Ergebnisse auf CharacterEval und RoleplayEval. Code und Datensatz sind verfügbar unter https://github.com/calubkk/ChARM.
English
Role-Playing Language Agents (RPLAs) aim to simulate characters for realistic and engaging human-computer interactions. However, traditional reward models often struggle with scalability and adapting to subjective conversational preferences. We propose ChARM, a Character-based Act-adaptive Reward Model, addressing these challenges through two innovations: (1) an act-adaptive margin that significantly enhances learning efficiency and generalizability, and (2) a self-evolution mechanism leveraging large-scale unlabeled data to improve training coverage. Additionally, we introduce RoleplayPref, the first large-scale preference dataset specifically for RPLAs, featuring 1,108 characters, 13 subcategories, and 16,888 bilingual dialogues, alongside RoleplayEval, a dedicated evaluation benchmark. Experimental results show a 13% improvement over the conventional Bradley-Terry model in preference rankings. Furthermore, applying ChARM-generated rewards to preference learning techniques (e.g., direct preference optimization) achieves state-of-the-art results on CharacterEval and RoleplayEval. Code and dataset are available at https://github.com/calubkk/ChARM.
PDF72June 2, 2025