ChatPaper.aiChatPaper

MOA: ロールプレイングエージェントのための多目的アライメント

MOA: Multi-Objective Alignment for Role-Playing Agents

December 10, 2025
著者: Chonghua Liao, Ke Wang, Yuchuan Wu, Fei Huang, Yongbin Li
cs.AI

要旨

ロールプレイングエージェント(RPA)は、多ターンにわたる指示への追従、領域知識の提示、一貫した言語スタイルの採用など、多くの相反する技能を同時に習得する必要がある。既存研究は、表面的な手がかりに過剰適合して多様性が低下する教師ありファインチューニング(SFT)に依存するか、あるいはRPAの総合的最適化に必要な多次元学習に失敗する強化学習(RL)を適用している。本論文では、一般的なRPAのための多次元かつ細粒度な評価基準最適化を実現する強化学習フレームワーク「MOA(Multi-Objective Alignment)」を提案する。MOAは、最適化性能を向上させるため、複数の細粒度評価基準に同時に学習させる新たな多目的最適化戦略を導入する。さらに、モデル出力の多様性と品質の問題に対処するため、オフポリシー指導を伴う思考拡張ロールアウトも採用した。PersonaGymやRoleMRCなどの難易度の高いベンチマークによる大規模な実験により、MOAが8Bパラメータモデルにおいて、多くの次元でGPT-4oやClaudeなどの強力なベースラインを匹敵もしくは凌駕する性能を発揮させることを実証した。これは、MOAが役割知識、人物スタイル、多様なシナリオ、複雑な多ターン対話という要求を同時に満たすRPA構築における大きな可能性を示している。
English
Role-playing agents (RPAs) must simultaneously master many conflicting skills -- following multi-turn instructions, exhibiting domain knowledge, and adopting a consistent linguistic style. Existing work either relies on supervised fine-tuning (SFT) that over-fits surface cues and yields low diversity, or applies reinforcement learning (RL) that fails to learn multiple dimensions for comprehensive RPA optimization. We present MOA (Multi-Objective Alignment), a reinforcement-learning framework that enables multi-dimensional, fine-grained rubric optimization for general RPAs. MOA introduces a novel multi-objective optimization strategy that trains simultaneously on multiple fine-grained rubrics to boost optimization performance. Besides, to address the issues of model output diversity and quality, we have also employed thought-augmented rollout with off-policy guidance. Extensive experiments on challenging benchmarks such as PersonaGym and RoleMRC show that MOA enables an 8B model to match or even outperform strong baselines such as GPT-4o and Claude across numerous dimensions. This demonstrates the great potential of MOA in building RPAs that can simultaneously meet the demands of role knowledge, persona style, diverse scenarios, and complex multi-turn conversations.
PDF11December 13, 2025