De Alignment Wals: Gezamenlijk Trainen van Agents voor Veilige Samenwerking
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
October 9, 2025
Auteurs: Jingyu Zhang, Haozhu Wang, Eric Michael Smith, Sid Wang, Amr Sharaf, Mahesh Pasupuleti, Benjamin Van Durme, Daniel Khashabi, Jason Weston, Hongyuan Zhan
cs.AI
Samenvatting
Het benutten van de kracht van LLM's vereist een delicate balans tussen behulpzaamheid en onschadelijkheid. Dit creëert een fundamentele spanning tussen twee concurrerende uitdagingen: kwetsbaarheid voor adversariële aanvallen die onveilige inhoud uitlokken, en een neiging tot overmatige weigering bij goedaardige maar gevoelige prompts. Huidige benaderingen navigeren deze balans vaak met beveiligingsmodellen die alle inhoud die onveilige delen bevat volledig afwijzen. Deze aanpak stopt de muziek volledig – het kan overmatige weigeringen verergeren en biedt geen genuanceerde begeleiding voor queries die het afwijst. Om modellen een meer gecoördineerde choreografie aan te leren, stellen we WaltzRL voor, een nieuw multi-agent reinforcement learning-framework dat veiligheidsafstemming formuleert als een collaboratief, positief-som spel. WaltzRL traint gezamenlijk een conversatieagent en een feedbackagent, waarbij de laatste wordt gestimuleerd om nuttige suggesties te geven die de veiligheid en behulpzaamheid van de reacties van de conversatieagent verbeteren. De kern van WaltzRL is een Dynamische Verbeteringsbeloning (DIR) die in de loop van de tijd evolueert op basis van hoe goed de conversatieagent de feedback integreert. Tijdens inferentie worden onveilige of overmatig weigerende reacties van de conversatieagent verbeterd in plaats van weggegooid. De feedbackagent wordt samen met de conversatieagent ingezet en engageert alleen adaptief wanneer nodig, waardoor behulpzaamheid en lage latentie behouden blijven bij veilige queries. Onze experimenten, uitgevoerd over vijf diverse datasets, tonen aan dat WaltzRL zowel onveilige reacties (bijvoorbeeld van 39,0% naar 4,6% op WildJailbreak) als overmatige weigeringen (van 45,3% naar 9,9% op OR-Bench) significant vermindert in vergelijking met verschillende baselines. Door de conversatie- en feedbackagenten in staat te stellen samen te evolueren en feedback adaptief toe te passen, verbetert WaltzRL de veiligheid van LLM's zonder algemene capaciteiten te verslechteren, waardoor het Pareto-front tussen behulpzaamheid en onschadelijkheid wordt bevorderd.
English
Harnessing the power of LLMs requires a delicate dance between being helpful
and harmless. This creates a fundamental tension between two competing
challenges: vulnerability to adversarial attacks that elicit unsafe content,
and a tendency for overrefusal on benign but sensitive prompts. Current
approaches often navigate this dance with safeguard models that completely
reject any content that contains unsafe portions. This approach cuts the music
entirely-it may exacerbate overrefusals and fails to provide nuanced guidance
for queries it refuses. To teach models a more coordinated choreography, we
propose WaltzRL, a novel multi-agent reinforcement learning framework that
formulates safety alignment as a collaborative, positive-sum game. WaltzRL
jointly trains a conversation agent and a feedback agent, where the latter is
incentivized to provide useful suggestions that improve the safety and
helpfulness of the conversation agent's responses. At the core of WaltzRL is a
Dynamic Improvement Reward (DIR) that evolves over time based on how well the
conversation agent incorporates the feedback. At inference time, unsafe or
overrefusing responses from the conversation agent are improved rather than
discarded. The feedback agent is deployed together with the conversation agent
and only engages adaptively when needed, preserving helpfulness and low latency
on safe queries. Our experiments, conducted across five diverse datasets,
demonstrate that WaltzRL significantly reduces both unsafe responses (e.g.,
from 39.0% to 4.6% on WildJailbreak) and overrefusals (from 45.3% to 9.9% on
OR-Bench) compared to various baselines. By enabling the conversation and
feedback agents to co-evolve and adaptively apply feedback, WaltzRL enhances
LLM safety without degrading general capabilities, thereby advancing the Pareto
front between helpfulness and harmlessness.