A Dança do Alinhamento: Treinamento Conjunto de Agentes para Colaborar com Segurança
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
October 9, 2025
Autores: Jingyu Zhang, Haozhu Wang, Eric Michael Smith, Sid Wang, Amr Sharaf, Mahesh Pasupuleti, Benjamin Van Durme, Daniel Khashabi, Jason Weston, Hongyuan Zhan
cs.AI
Resumo
Aproveitar o poder dos LLMs (Large Language Models) requer um delicado equilíbrio entre ser útil e inofensivo. Isso cria uma tensão fundamental entre dois desafios concorrentes: a vulnerabilidade a ataques adversariais que eliciam conteúdo inseguro e a tendência de recusa excessiva em prompts benignos, mas sensíveis. As abordagens atuais frequentemente lidam com esse equilíbrio utilizando modelos de segurança que rejeitam completamente qualquer conteúdo que contenha partes inseguras. Essa abordagem interrompe a música por completo - pode exacerbar recusas excessivas e falha em fornecer orientações detalhadas para as consultas que rejeita. Para ensinar aos modelos uma coreografia mais coordenada, propomos o WaltzRL, uma nova estrutura de aprendizado por reforço multiagente que formula o alinhamento de segurança como um jogo colaborativo de soma positiva. O WaltzRL treina conjuntamente um agente de conversação e um agente de feedback, onde o último é incentivado a fornecer sugestões úteis que melhoram a segurança e a utilidade das respostas do agente de conversação. No cerne do WaltzRL está uma Recompensa de Melhoria Dinâmica (DIR, Dynamic Improvement Reward) que evolui ao longo do tempo com base em quão bem o agente de conversação incorpora o feedback. No momento da inferência, respostas inseguras ou de recusa excessiva do agente de conversação são aprimoradas em vez de descartadas. O agente de feedback é implantado junto com o agente de conversação e só atua de forma adaptativa quando necessário, preservando a utilidade e a baixa latência em consultas seguras. Nossos experimentos, conduzidos em cinco conjuntos de dados diversos, demonstram que o WaltzRL reduz significativamente tanto as respostas inseguras (por exemplo, de 39,0% para 4,6% no WildJailbreak) quanto as recusas excessivas (de 45,3% para 9,9% no OR-Bench) em comparação com várias linhas de base. Ao permitir que os agentes de conversação e feedback co-evoluam e apliquem feedback de forma adaptativa, o WaltzRL aprimora a segurança dos LLMs sem degradar as capacidades gerais, avançando assim a fronteira de Pareto entre utilidade e inofensividade.
English
Harnessing the power of LLMs requires a delicate dance between being helpful
and harmless. This creates a fundamental tension between two competing
challenges: vulnerability to adversarial attacks that elicit unsafe content,
and a tendency for overrefusal on benign but sensitive prompts. Current
approaches often navigate this dance with safeguard models that completely
reject any content that contains unsafe portions. This approach cuts the music
entirely-it may exacerbate overrefusals and fails to provide nuanced guidance
for queries it refuses. To teach models a more coordinated choreography, we
propose WaltzRL, a novel multi-agent reinforcement learning framework that
formulates safety alignment as a collaborative, positive-sum game. WaltzRL
jointly trains a conversation agent and a feedback agent, where the latter is
incentivized to provide useful suggestions that improve the safety and
helpfulness of the conversation agent's responses. At the core of WaltzRL is a
Dynamic Improvement Reward (DIR) that evolves over time based on how well the
conversation agent incorporates the feedback. At inference time, unsafe or
overrefusing responses from the conversation agent are improved rather than
discarded. The feedback agent is deployed together with the conversation agent
and only engages adaptively when needed, preserving helpfulness and low latency
on safe queries. Our experiments, conducted across five diverse datasets,
demonstrate that WaltzRL significantly reduces both unsafe responses (e.g.,
from 39.0% to 4.6% on WildJailbreak) and overrefusals (from 45.3% to 9.9% on
OR-Bench) compared to various baselines. By enabling the conversation and
feedback agents to co-evolve and adaptively apply feedback, WaltzRL enhances
LLM safety without degrading general capabilities, thereby advancing the Pareto
front between helpfulness and harmlessness.