Der Alignment-Walzer: Gemeinsames Training von Agenten zur sicheren Zusammenarbeit
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
October 9, 2025
papers.authors: Jingyu Zhang, Haozhu Wang, Eric Michael Smith, Sid Wang, Amr Sharaf, Mahesh Pasupuleti, Benjamin Van Durme, Daniel Khashabi, Jason Weston, Hongyuan Zhan
cs.AI
papers.abstract
Die Nutzung der Leistungsfähigkeit von LLMs erfordert einen fein abgestimmten Balanceakt zwischen Hilfsbereitschaft und Unbedenklichkeit. Dies erzeugt eine grundlegende Spannung zwischen zwei konkurrierenden Herausforderungen: der Anfälligkeit für adversariale Angriffe, die unsichere Inhalte hervorrufen, und der Tendenz zur Überverweigerung bei harmlosen, aber sensiblen Anfragen. Aktuelle Ansätze navigieren diesen Balanceakt oft mit Sicherheitsmodellen, die jegliche Inhalte, die unsichere Teile enthalten, vollständig ablehnen. Dieser Ansatz unterbricht die Musik vollständig – er kann Überverweigerungen verschärfen und bietet keine differenzierte Anleitung für Anfragen, die er ablehnt. Um den Modellen eine besser koordinierte Choreografie beizubringen, schlagen wir WaltzRL vor, ein neuartiges Multi-Agenten-Reinforcement-Learning-Framework, das die Sicherheitsausrichtung als ein kooperatives, positiv-summen Spiel formuliert. WaltzRL trainiert gemeinsam einen Konversationsagenten und einen Feedbackagenten, wobei letzterer Anreize erhält, nützliche Vorschläge zu machen, die die Sicherheit und Hilfsbereitschaft der Antworten des Konversationsagenten verbessern. Im Kern von WaltzRL steht eine dynamische Verbesserungsbelohnung (DIR), die sich im Laufe der Zeit basierend darauf entwickelt, wie gut der Konversationsagent das Feedback einarbeitet. Zum Inferenzzeitpunkt werden unsichere oder überverweigernde Antworten des Konversationsagenten verbessert, anstatt verworfen zu werden. Der Feedbackagent wird zusammen mit dem Konversationsagenten eingesetzt und greift nur adaptiv ein, wenn es nötig ist, wodurch die Hilfsbereitschaft und niedrige Latenz bei sicheren Anfragen erhalten bleiben. Unsere Experimente, die über fünf verschiedene Datensätze durchgeführt wurden, zeigen, dass WaltzRL sowohl unsichere Antworten (z.B. von 39,0 % auf 4,6 % bei WildJailbreak) als auch Überverweigerungen (von 45,3 % auf 9,9 % bei OR-Bench) im Vergleich zu verschiedenen Baselines signifikant reduziert. Indem WaltzRL den Konversations- und Feedbackagenten ermöglicht, sich gemeinsam weiterzuentwickeln und Feedback adaptiv anzuwenden, verbessert es die Sicherheit von LLMs, ohne die allgemeinen Fähigkeiten zu beeinträchtigen, und schreitet damit die Pareto-Front zwischen Hilfsbereitschaft und Unbedenklichkeit voran.
English
Harnessing the power of LLMs requires a delicate dance between being helpful
and harmless. This creates a fundamental tension between two competing
challenges: vulnerability to adversarial attacks that elicit unsafe content,
and a tendency for overrefusal on benign but sensitive prompts. Current
approaches often navigate this dance with safeguard models that completely
reject any content that contains unsafe portions. This approach cuts the music
entirely-it may exacerbate overrefusals and fails to provide nuanced guidance
for queries it refuses. To teach models a more coordinated choreography, we
propose WaltzRL, a novel multi-agent reinforcement learning framework that
formulates safety alignment as a collaborative, positive-sum game. WaltzRL
jointly trains a conversation agent and a feedback agent, where the latter is
incentivized to provide useful suggestions that improve the safety and
helpfulness of the conversation agent's responses. At the core of WaltzRL is a
Dynamic Improvement Reward (DIR) that evolves over time based on how well the
conversation agent incorporates the feedback. At inference time, unsafe or
overrefusing responses from the conversation agent are improved rather than
discarded. The feedback agent is deployed together with the conversation agent
and only engages adaptively when needed, preserving helpfulness and low latency
on safe queries. Our experiments, conducted across five diverse datasets,
demonstrate that WaltzRL significantly reduces both unsafe responses (e.g.,
from 39.0% to 4.6% on WildJailbreak) and overrefusals (from 45.3% to 9.9% on
OR-Bench) compared to various baselines. By enabling the conversation and
feedback agents to co-evolve and adaptively apply feedback, WaltzRL enhances
LLM safety without degrading general capabilities, thereby advancing the Pareto
front between helpfulness and harmlessness.