Il Valzer dell'Allineamento: Addestramento Congiunto di Agenti per Collaborare in Sicurezza
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
October 9, 2025
Autori: Jingyu Zhang, Haozhu Wang, Eric Michael Smith, Sid Wang, Amr Sharaf, Mahesh Pasupuleti, Benjamin Van Durme, Daniel Khashabi, Jason Weston, Hongyuan Zhan
cs.AI
Abstract
Sfruttare il potenziale dei LLM richiede un delicato equilibrio tra l'essere utili e innocui. Ciò crea una tensione fondamentale tra due sfide contrastanti: la vulnerabilità ad attacchi avversari che inducono contenuti non sicuri e la tendenza a un eccesso di rifiuto su prompt benigni ma sensibili. Gli approcci attuali spesso gestiscono questo equilibrio utilizzando modelli di sicurezza che rifiutano completamente qualsiasi contenuto che includa parti non sicure. Questo approccio interrompe del tutto la musica: può esacerbare i rifiuti eccessivi e non fornisce una guida sfumata per le query che rifiuta. Per insegnare ai modelli una coreografia più coordinata, proponiamo WaltzRL, un innovativo framework di apprendimento per rinforzo multi-agente che formula l'allineamento alla sicurezza come un gioco collaborativo a somma positiva. WaltzRL addestra congiuntamente un agente conversazionale e un agente di feedback, dove quest'ultimo è incentivato a fornire suggerimenti utili che migliorano la sicurezza e l'utilità delle risposte dell'agente conversazionale. Al centro di WaltzRL c'è un Dynamic Improvement Reward (DIR) che si evolve nel tempo in base a quanto bene l'agente conversazionale incorpora il feedback. Al momento dell'inferenza, le risposte non sicure o eccessivamente rifiutanti dell'agente conversazionale vengono migliorate anziché scartate. L'agente di feedback viene implementato insieme all'agente conversazionale e si attiva in modo adattivo solo quando necessario, preservando l'utilità e la bassa latenza sulle query sicure. I nostri esperimenti, condotti su cinque dataset diversi, dimostrano che WaltzRL riduce significativamente sia le risposte non sicure (ad esempio, dal 39,0% al 4,6% su WildJailbreak) che i rifiuti eccessivi (dal 45,3% al 9,9% su OR-Bench) rispetto a vari baseline. Consentendo agli agenti conversazionali e di feedback di co-evolvere e applicare il feedback in modo adattivo, WaltzRL migliora la sicurezza dei LLM senza degradare le capacità generali, avanzando così il fronte di Pareto tra utilità e innocuità.
English
Harnessing the power of LLMs requires a delicate dance between being helpful
and harmless. This creates a fundamental tension between two competing
challenges: vulnerability to adversarial attacks that elicit unsafe content,
and a tendency for overrefusal on benign but sensitive prompts. Current
approaches often navigate this dance with safeguard models that completely
reject any content that contains unsafe portions. This approach cuts the music
entirely-it may exacerbate overrefusals and fails to provide nuanced guidance
for queries it refuses. To teach models a more coordinated choreography, we
propose WaltzRL, a novel multi-agent reinforcement learning framework that
formulates safety alignment as a collaborative, positive-sum game. WaltzRL
jointly trains a conversation agent and a feedback agent, where the latter is
incentivized to provide useful suggestions that improve the safety and
helpfulness of the conversation agent's responses. At the core of WaltzRL is a
Dynamic Improvement Reward (DIR) that evolves over time based on how well the
conversation agent incorporates the feedback. At inference time, unsafe or
overrefusing responses from the conversation agent are improved rather than
discarded. The feedback agent is deployed together with the conversation agent
and only engages adaptively when needed, preserving helpfulness and low latency
on safe queries. Our experiments, conducted across five diverse datasets,
demonstrate that WaltzRL significantly reduces both unsafe responses (e.g.,
from 39.0% to 4.6% on WildJailbreak) and overrefusals (from 45.3% to 9.9% on
OR-Bench) compared to various baselines. By enabling the conversation and
feedback agents to co-evolve and adaptively apply feedback, WaltzRL enhances
LLM safety without degrading general capabilities, thereby advancing the Pareto
front between helpfulness and harmlessness.