ChARM: 高度なロールプレイング言語エージェントのためのキャラクターベース・アクション適応型報酬モデリング

要旨

ロールプレイング言語エージェント（RPLAs）は、現実的で魅力的な人間とコンピュータの相互作用をシミュレートすることを目的としています。しかし、従来の報酬モデルは、スケーラビリティや主観的な会話の嗜好への適応に課題を抱えています。本論文では、これらの課題に対処するため、ChARM（Character-based Act-adaptive Reward Model）を提案します。ChARMは、以下の2つの革新を通じてこれらの課題を解決します：(1) 学習効率と汎化性能を大幅に向上させるアクティブ適応マージン、(2) 大規模な未ラベルデータを活用してトレーニングのカバレッジを改善する自己進化メカニズム。さらに、RPLAs専用の初の大規模嗜好データセットであるRoleplayPrefを導入します。このデータセットは、1,108のキャラクター、13のサブカテゴリー、および16,888の二言語対話を特徴とし、専用の評価ベンチマークであるRoleplayEvalも提供します。実験結果は、従来のBradley-Terryモデルと比較して嗜好ランキングで13%の改善を示しています。さらに、ChARMによって生成された報酬を嗜好学習技術（例：直接嗜好最適化）に適用することで、CharacterEvalおよびRoleplayEvalにおいて最先端の結果を達成しました。コードとデータセットはhttps://github.com/calubkk/ChARMで公開されています。

English

Role-Playing Language Agents (RPLAs) aim to simulate characters for realistic and engaging human-computer interactions. However, traditional reward models often struggle with scalability and adapting to subjective conversational preferences. We propose ChARM, a Character-based Act-adaptive Reward Model, addressing these challenges through two innovations: (1) an act-adaptive margin that significantly enhances learning efficiency and generalizability, and (2) a self-evolution mechanism leveraging large-scale unlabeled data to improve training coverage. Additionally, we introduce RoleplayPref, the first large-scale preference dataset specifically for RPLAs, featuring 1,108 characters, 13 subcategories, and 16,888 bilingual dialogues, alongside RoleplayEval, a dedicated evaluation benchmark. Experimental results show a 13% improvement over the conventional Bradley-Terry model in preference rankings. Furthermore, applying ChARM-generated rewards to preference learning techniques (e.g., direct preference optimization) achieves state-of-the-art results on CharacterEval and RoleplayEval. Code and dataset are available at https://github.com/calubkk/ChARM.

ChARM: 高度なロールプレイング言語エージェントのためのキャラクターベース・アクション適応型報酬モデリング

ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents

要旨

Support