ChatPaper.aiChatPaper

La valse de l'alignement : Entraînement conjoint des agents à collaborer pour la sécurité

The Alignment Waltz: Jointly Training Agents to Collaborate for Safety

October 9, 2025
papers.authors: Jingyu Zhang, Haozhu Wang, Eric Michael Smith, Sid Wang, Amr Sharaf, Mahesh Pasupuleti, Benjamin Van Durme, Daniel Khashabi, Jason Weston, Hongyuan Zhan
cs.AI

papers.abstract

Exploiter la puissance des LLM nécessite un équilibre délicat entre être utile et inoffensif. Cela crée une tension fondamentale entre deux défis concurrents : la vulnérabilité aux attaques adverses qui suscitent du contenu dangereux, et une tendance à refuser excessivement des requêtes bénignes mais sensibles. Les approches actuelles naviguent souvent cet équilibre avec des modèles de sécurité qui rejettent complètement tout contenu contenant des parties dangereuses. Cette approche coupe la musique entièrement - elle peut exacerber les refus excessifs et ne parvient pas à fournir des conseils nuancés pour les requêtes qu'elle refuse. Pour enseigner aux modèles une chorégraphie plus coordonnée, nous proposons WaltzRL, un nouveau cadre d'apprentissage par renforcement multi-agent qui formule l'alignement de la sécurité comme un jeu collaboratif à somme positive. WaltzRL entraîne conjointement un agent de conversation et un agent de feedback, ce dernier étant incité à fournir des suggestions utiles qui améliorent la sécurité et l'utilité des réponses de l'agent de conversation. Au cœur de WaltzRL se trouve une Récompense d'Amélioration Dynamique (DIR) qui évolue dans le temps en fonction de la manière dont l'agent de conversation intègre le feedback. Au moment de l'inférence, les réponses dangereuses ou excessivement refusantes de l'agent de conversation sont améliorées plutôt que rejetées. L'agent de feedback est déployé avec l'agent de conversation et ne s'engage de manière adaptative que lorsque nécessaire, préservant ainsi l'utilité et une faible latence pour les requêtes sûres. Nos expériences, menées sur cinq ensembles de données diversifiés, démontrent que WaltzRL réduit significativement à la fois les réponses dangereuses (par exemple, de 39,0 % à 4,6 % sur WildJailbreak) et les refus excessifs (de 45,3 % à 9,9 % sur OR-Bench) par rapport à diverses méthodes de référence. En permettant aux agents de conversation et de feedback de co-évoluer et d'appliquer de manière adaptative le feedback, WaltzRL améliore la sécurité des LLM sans dégrader leurs capacités générales, faisant ainsi progresser la frontière de Pareto entre utilité et innocuité.
English
Harnessing the power of LLMs requires a delicate dance between being helpful and harmless. This creates a fundamental tension between two competing challenges: vulnerability to adversarial attacks that elicit unsafe content, and a tendency for overrefusal on benign but sensitive prompts. Current approaches often navigate this dance with safeguard models that completely reject any content that contains unsafe portions. This approach cuts the music entirely-it may exacerbate overrefusals and fails to provide nuanced guidance for queries it refuses. To teach models a more coordinated choreography, we propose WaltzRL, a novel multi-agent reinforcement learning framework that formulates safety alignment as a collaborative, positive-sum game. WaltzRL jointly trains a conversation agent and a feedback agent, where the latter is incentivized to provide useful suggestions that improve the safety and helpfulness of the conversation agent's responses. At the core of WaltzRL is a Dynamic Improvement Reward (DIR) that evolves over time based on how well the conversation agent incorporates the feedback. At inference time, unsafe or overrefusing responses from the conversation agent are improved rather than discarded. The feedback agent is deployed together with the conversation agent and only engages adaptively when needed, preserving helpfulness and low latency on safe queries. Our experiments, conducted across five diverse datasets, demonstrate that WaltzRL significantly reduces both unsafe responses (e.g., from 39.0% to 4.6% on WildJailbreak) and overrefusals (from 45.3% to 9.9% on OR-Bench) compared to various baselines. By enabling the conversation and feedback agents to co-evolve and adaptively apply feedback, WaltzRL enhances LLM safety without degrading general capabilities, thereby advancing the Pareto front between helpfulness and harmlessness.
PDF332October 10, 2025