MOA: 역할 수행 에이전트를 위한 다중 목표 정렬
MOA: Multi-Objective Alignment for Role-Playing Agents
December 10, 2025
저자: Chonghua Liao, Ke Wang, Yuchuan Wu, Fei Huang, Yongbin Li
cs.AI
초록
역할 수행 에이전트(RPA)는 상호 충돌하는 여러 기술을 동시에 숙달해야 합니다. 여기에는 다중 턴 지시 따르기, 도메인 지식 발휘, 일관된 언어 스타일 채택 등이 포함됩니다. 기존 연구는 표면적 단서에 과적합되어 다양성이 낮은 지도 미세 조정(SFT)에 의존하거나, 포괄적인 RPA 최적화를 위한 다차원 학습에 실패하는 강화 학습(RL)을 적용했습니다. 본 논문은 일반적인 RPA를 위한 다차원적이고 세분화된 루브릭 최적화를 가능하게 하는 강화 학습 프레임워크인 MOA(다중 목표 정렬)를 제안합니다. MOA는 최적화 성능을 향상시키기 위해 여러 세분화된 루브릭을 동시에 학습하는 새로운 다중 목표 최적화 전략을 도입합니다. 또한 모델 출력의 다양성과 품질 문제를 해결하기 위해 오프-폴리시 가이드라인을 통한 사고 증강 롤아웃을 활용했습니다. PersonaGym 및 RoleMRC와 같은 도전적인 벤치마크에서의 광범위한 실험을 통해 MOA가 8B 규모의 모델로 하여금 GPT-4o 및 Claude와 같은 강력한 기준 모델들을 여러 차원에서 맞서거나 심지어 능가할 수 있게 함을 확인했습니다. 이는 MOA가 역할 지식, 페르소나 스타일, 다양한 시나리오, 복잡한 다중 턴 대화의 요구 사항을 동시에 충족할 수 있는 RPA 구축에 큰 잠재력을 가지고 있음을 입증합니다.
English
Role-playing agents (RPAs) must simultaneously master many conflicting skills -- following multi-turn instructions, exhibiting domain knowledge, and adopting a consistent linguistic style. Existing work either relies on supervised fine-tuning (SFT) that over-fits surface cues and yields low diversity, or applies reinforcement learning (RL) that fails to learn multiple dimensions for comprehensive RPA optimization. We present MOA (Multi-Objective Alignment), a reinforcement-learning framework that enables multi-dimensional, fine-grained rubric optimization for general RPAs. MOA introduces a novel multi-objective optimization strategy that trains simultaneously on multiple fine-grained rubrics to boost optimization performance. Besides, to address the issues of model output diversity and quality, we have also employed thought-augmented rollout with off-policy guidance. Extensive experiments on challenging benchmarks such as PersonaGym and RoleMRC show that MOA enables an 8B model to match or even outperform strong baselines such as GPT-4o and Claude across numerous dimensions. This demonstrates the great potential of MOA in building RPAs that can simultaneously meet the demands of role knowledge, persona style, diverse scenarios, and complex multi-turn conversations.