MOA: Alinhamento Multiobjetivo para Agentes de Role-Playing

Resumo

Os agentes de role-playing (RPAs) devem dominar simultaneamente múltiplas competências conflituosas – seguir instruções multi-turno, exibir conhecimento de domínio e adotar um estilo linguístico consistente. O trabalho existente baseia-se ou no ajuste fino supervisionado (SFT), que se ajusta excessivamente a pistas superficiais e produz baixa diversidade, ou aplica aprendizagem por reforço (RL), que falha em aprender múltiplas dimensões para uma otimização abrangente de RPAs. Apresentamos o MOA (Alinhamento Multi-Objetivo), uma estrutura de aprendizagem por reforço que permite a otimização multi-dimensional e de granularidade fina para RPAs gerais. O MOA introduz uma nova estratégia de otimização multi-objetivo que treina simultaneamente em múltiplas rubricas de granularidade fina para impulsionar o desempenho da otimização. Além disso, para resolver as questões da diversidade e qualidade da saída do modelo, também empregámos um rollout aumentado por pensamento com orientação off-policy. Experiências extensivas em benchmarks desafiadores como o PersonaGym e o RoleMRC mostram que o MOA permite que um modelo de 8B iguale ou até supere linhas de base fortes como o GPT-4o e o Claude em numerosas dimensões. Isto demonstra o grande potencial do MOA na construção de RPAs que podem satisfazer simultaneamente as exigências de conhecimento de papel, estilo de persona, cenários diversos e conversas complexas multi-turno.

English

Role-playing agents (RPAs) must simultaneously master many conflicting skills -- following multi-turn instructions, exhibiting domain knowledge, and adopting a consistent linguistic style. Existing work either relies on supervised fine-tuning (SFT) that over-fits surface cues and yields low diversity, or applies reinforcement learning (RL) that fails to learn multiple dimensions for comprehensive RPA optimization. We present MOA (Multi-Objective Alignment), a reinforcement-learning framework that enables multi-dimensional, fine-grained rubric optimization for general RPAs. MOA introduces a novel multi-objective optimization strategy that trains simultaneously on multiple fine-grained rubrics to boost optimization performance. Besides, to address the issues of model output diversity and quality, we have also employed thought-augmented rollout with off-policy guidance. Extensive experiments on challenging benchmarks such as PersonaGym and RoleMRC show that MOA enables an 8B model to match or even outperform strong baselines such as GPT-4o and Claude across numerous dimensions. This demonstrates the great potential of MOA in building RPAs that can simultaneously meet the demands of role knowledge, persona style, diverse scenarios, and complex multi-turn conversations.

MOA: Alinhamento Multiobjetivo para Agentes de Role-Playing

MOA: Multi-Objective Alignment for Role-Playing Agents

Resumo

Support