El Vals de la Alineación: Entrenamiento Conjunto de Agentes para Colaborar en la Seguridad
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
October 9, 2025
Autores: Jingyu Zhang, Haozhu Wang, Eric Michael Smith, Sid Wang, Amr Sharaf, Mahesh Pasupuleti, Benjamin Van Durme, Daniel Khashabi, Jason Weston, Hongyuan Zhan
cs.AI
Resumen
Aprovechar el poder de los LLM requiere un delicado equilibrio entre ser útil e inofensivo. Esto crea una tensión fundamental entre dos desafíos competidores: la vulnerabilidad a ataques adversarios que generan contenido inseguro y la tendencia a rechazar en exceso indicaciones benignas pero sensibles. Los enfoques actuales suelen manejar este equilibrio mediante modelos de seguridad que rechazan por completo cualquier contenido que contenga partes inseguras. Este enfoque corta la música por completo: puede exacerbar los rechazos excesivos y no proporciona orientación matizada para las consultas que rechaza. Para enseñar a los modelos una coreografía más coordinada, proponemos WaltzRL, un novedoso marco de aprendizaje por refuerzo multiagente que formula la alineación de seguridad como un juego colaborativo de suma positiva. WaltzRL entrena conjuntamente un agente de conversación y un agente de retroalimentación, donde este último recibe incentivos para proporcionar sugerencias útiles que mejoren la seguridad y utilidad de las respuestas del agente de conversación. En el núcleo de WaltzRL se encuentra una Recompensa de Mejora Dinámica (DIR) que evoluciona con el tiempo según cómo el agente de conversación incorpora la retroalimentación. Durante la inferencia, las respuestas inseguras o que rechazan en exceso del agente de conversación se mejoran en lugar de descartarse. El agente de retroalimentación se despliega junto con el agente de conversación y solo interviene de manera adaptativa cuando es necesario, preservando la utilidad y la baja latencia en consultas seguras. Nuestros experimentos, realizados en cinco conjuntos de datos diversos, demuestran que WaltzRL reduce significativamente tanto las respuestas inseguras (por ejemplo, del 39.0% al 4.6% en WildJailbreak) como los rechazos excesivos (del 45.3% al 9.9% en OR-Bench) en comparación con varios baselines. Al permitir que los agentes de conversación y retroalimentación co-evolucionen y apliquen retroalimentación de manera adaptativa, WaltzRL mejora la seguridad de los LLM sin degradar sus capacidades generales, avanzando así en el frente de Pareto entre utilidad e inofensividad.
English
Harnessing the power of LLMs requires a delicate dance between being helpful
and harmless. This creates a fundamental tension between two competing
challenges: vulnerability to adversarial attacks that elicit unsafe content,
and a tendency for overrefusal on benign but sensitive prompts. Current
approaches often navigate this dance with safeguard models that completely
reject any content that contains unsafe portions. This approach cuts the music
entirely-it may exacerbate overrefusals and fails to provide nuanced guidance
for queries it refuses. To teach models a more coordinated choreography, we
propose WaltzRL, a novel multi-agent reinforcement learning framework that
formulates safety alignment as a collaborative, positive-sum game. WaltzRL
jointly trains a conversation agent and a feedback agent, where the latter is
incentivized to provide useful suggestions that improve the safety and
helpfulness of the conversation agent's responses. At the core of WaltzRL is a
Dynamic Improvement Reward (DIR) that evolves over time based on how well the
conversation agent incorporates the feedback. At inference time, unsafe or
overrefusing responses from the conversation agent are improved rather than
discarded. The feedback agent is deployed together with the conversation agent
and only engages adaptively when needed, preserving helpfulness and low latency
on safe queries. Our experiments, conducted across five diverse datasets,
demonstrate that WaltzRL significantly reduces both unsafe responses (e.g.,
from 39.0% to 4.6% on WildJailbreak) and overrefusals (from 45.3% to 9.9% on
OR-Bench) compared to various baselines. By enabling the conversation and
feedback agents to co-evolve and adaptively apply feedback, WaltzRL enhances
LLM safety without degrading general capabilities, thereby advancing the Pareto
front between helpfulness and harmlessness.