Der Alignment-Walzer: Gemeinsames Training von Agenten zur sicheren Zusammenarbeit

papers.abstract

Die Nutzung der Leistungsfähigkeit von LLMs erfordert einen fein abgestimmten Balanceakt zwischen Hilfsbereitschaft und Unbedenklichkeit. Dies erzeugt eine grundlegende Spannung zwischen zwei konkurrierenden Herausforderungen: der Anfälligkeit für adversariale Angriffe, die unsichere Inhalte hervorrufen, und der Tendenz zur Überverweigerung bei harmlosen, aber sensiblen Anfragen. Aktuelle Ansätze navigieren diesen Balanceakt oft mit Sicherheitsmodellen, die jegliche Inhalte, die unsichere Teile enthalten, vollständig ablehnen. Dieser Ansatz unterbricht die Musik vollständig – er kann Überverweigerungen verschärfen und bietet keine differenzierte Anleitung für Anfragen, die er ablehnt. Um den Modellen eine besser koordinierte Choreografie beizubringen, schlagen wir WaltzRL vor, ein neuartiges Multi-Agenten-Reinforcement-Learning-Framework, das die Sicherheitsausrichtung als ein kooperatives, positiv-summen Spiel formuliert. WaltzRL trainiert gemeinsam einen Konversationsagenten und einen Feedbackagenten, wobei letzterer Anreize erhält, nützliche Vorschläge zu machen, die die Sicherheit und Hilfsbereitschaft der Antworten des Konversationsagenten verbessern. Im Kern von WaltzRL steht eine dynamische Verbesserungsbelohnung (DIR), die sich im Laufe der Zeit basierend darauf entwickelt, wie gut der Konversationsagent das Feedback einarbeitet. Zum Inferenzzeitpunkt werden unsichere oder überverweigernde Antworten des Konversationsagenten verbessert, anstatt verworfen zu werden. Der Feedbackagent wird zusammen mit dem Konversationsagenten eingesetzt und greift nur adaptiv ein, wenn es nötig ist, wodurch die Hilfsbereitschaft und niedrige Latenz bei sicheren Anfragen erhalten bleiben. Unsere Experimente, die über fünf verschiedene Datensätze durchgeführt wurden, zeigen, dass WaltzRL sowohl unsichere Antworten (z.B. von 39,0 % auf 4,6 % bei WildJailbreak) als auch Überverweigerungen (von 45,3 % auf 9,9 % bei OR-Bench) im Vergleich zu verschiedenen Baselines signifikant reduziert. Indem WaltzRL den Konversations- und Feedbackagenten ermöglicht, sich gemeinsam weiterzuentwickeln und Feedback adaptiv anzuwenden, verbessert es die Sicherheit von LLMs, ohne die allgemeinen Fähigkeiten zu beeinträchtigen, und schreitet damit die Pareto-Front zwischen Hilfsbereitschaft und Unbedenklichkeit voran.

English

Harnessing the power of LLMs requires a delicate dance between being helpful and harmless. This creates a fundamental tension between two competing challenges: vulnerability to adversarial attacks that elicit unsafe content, and a tendency for overrefusal on benign but sensitive prompts. Current approaches often navigate this dance with safeguard models that completely reject any content that contains unsafe portions. This approach cuts the music entirely-it may exacerbate overrefusals and fails to provide nuanced guidance for queries it refuses. To teach models a more coordinated choreography, we propose WaltzRL, a novel multi-agent reinforcement learning framework that formulates safety alignment as a collaborative, positive-sum game. WaltzRL jointly trains a conversation agent and a feedback agent, where the latter is incentivized to provide useful suggestions that improve the safety and helpfulness of the conversation agent's responses. At the core of WaltzRL is a Dynamic Improvement Reward (DIR) that evolves over time based on how well the conversation agent incorporates the feedback. At inference time, unsafe or overrefusing responses from the conversation agent are improved rather than discarded. The feedback agent is deployed together with the conversation agent and only engages adaptively when needed, preserving helpfulness and low latency on safe queries. Our experiments, conducted across five diverse datasets, demonstrate that WaltzRL significantly reduces both unsafe responses (e.g., from 39.0% to 4.6% on WildJailbreak) and overrefusals (from 45.3% to 9.9% on OR-Bench) compared to various baselines. By enabling the conversation and feedback agents to co-evolve and adaptively apply feedback, WaltzRL enhances LLM safety without degrading general capabilities, thereby advancing the Pareto front between helpfulness and harmlessness.

Der Alignment-Walzer: Gemeinsames Training von Agenten zur sicheren Zusammenarbeit

The Alignment Waltz: Jointly Training Agents to Collaborate for Safety

papers.abstract

Support