안전을 위한 협업을 위한 에이전트의 공동 훈련: 얼라인먼트 왈츠
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety
October 9, 2025
저자: Jingyu Zhang, Haozhu Wang, Eric Michael Smith, Sid Wang, Amr Sharaf, Mahesh Pasupuleti, Benjamin Van Durme, Daniel Khashabi, Jason Weston, Hongyuan Zhan
cs.AI
초록
대형 언어 모델(LLM)의 힘을 활용하려면 도움을 주는 것과 해를 끼치지 않는 것 사이의 섬세한 균형을 맞춰야 합니다. 이는 두 가지 상반된 도전 과제 사이의 근본적인 긴장을 야기합니다: 안전하지 않은 콘텐츠를 유도하는 적대적 공격에 대한 취약성과, 민감하지만 무해한 프롬프트에 대해 과도하게 거부하는 경향입니다. 현재의 접근 방식은 안전하지 않은 부분이 포함된 콘텐츠를 완전히 거부하는 안전장치 모델을 통해 이러한 균형을 맞추려고 합니다. 이 방식은 음악을 완전히 끊어버리는 것과 같아서, 과도한 거부를 악화시킬 수 있으며 거부한 쿼리에 대해 세심한 지침을 제공하지 못합니다. 모델에게 더 조화로운 안무를 가르치기 위해, 우리는 WaltzRL이라는 새로운 다중 에이전트 강화 학습 프레임워크를 제안합니다. WaltzRL은 안전 정렬을 협력적이고 상호 이익이 되는 게임으로 공식화합니다. WaltzRL은 대화 에이전트와 피드백 에이전트를 공동으로 훈련시키며, 피드백 에이전트는 대화 에이전트의 응답의 안전성과 도움을 개선하는 유용한 제안을 제공하도록 유도됩니다. WaltzRL의 핵심은 대화 에이전트가 피드백을 얼마나 잘 반영하는지에 따라 시간이 지남에 따라 진화하는 동적 개선 보상(DIR)입니다. 추론 시에는 대화 에이전트의 안전하지 않거나 과도하게 거부하는 응답을 폐기하는 대신 개선합니다. 피드백 에이전트는 대화 에이전트와 함께 배치되며 필요할 때만 적응적으로 참여하여 안전한 쿼리에 대한 도움과 낮은 지연 시간을 유지합니다. 다섯 가지 다양한 데이터셋에서 진행한 실험 결과, WaltzRL은 다양한 기준선에 비해 안전하지 않은 응답(예: WildJailbreak에서 39.0%에서 4.6%로)과 과도한 거부(OR-Bench에서 45.3%에서 9.9%로)를 모두 크게 줄였습니다. 대화 에이전트와 피드백 에이전트가 공동으로 진화하고 피드백을 적응적으로 적용할 수 있게 함으로써, WaltzRL은 일반적인 능력을 저하시키지 않으면서 LLM의 안전성을 향상시켜 도움과 해를 끼치지 않음 사이의 파레토 최적을 발전시킵니다.
English
Harnessing the power of LLMs requires a delicate dance between being helpful
and harmless. This creates a fundamental tension between two competing
challenges: vulnerability to adversarial attacks that elicit unsafe content,
and a tendency for overrefusal on benign but sensitive prompts. Current
approaches often navigate this dance with safeguard models that completely
reject any content that contains unsafe portions. This approach cuts the music
entirely-it may exacerbate overrefusals and fails to provide nuanced guidance
for queries it refuses. To teach models a more coordinated choreography, we
propose WaltzRL, a novel multi-agent reinforcement learning framework that
formulates safety alignment as a collaborative, positive-sum game. WaltzRL
jointly trains a conversation agent and a feedback agent, where the latter is
incentivized to provide useful suggestions that improve the safety and
helpfulness of the conversation agent's responses. At the core of WaltzRL is a
Dynamic Improvement Reward (DIR) that evolves over time based on how well the
conversation agent incorporates the feedback. At inference time, unsafe or
overrefusing responses from the conversation agent are improved rather than
discarded. The feedback agent is deployed together with the conversation agent
and only engages adaptively when needed, preserving helpfulness and low latency
on safe queries. Our experiments, conducted across five diverse datasets,
demonstrate that WaltzRL significantly reduces both unsafe responses (e.g.,
from 39.0% to 4.6% on WildJailbreak) and overrefusals (from 45.3% to 9.9% on
OR-Bench) compared to various baselines. By enabling the conversation and
feedback agents to co-evolve and adaptively apply feedback, WaltzRL enhances
LLM safety without degrading general capabilities, thereby advancing the Pareto
front between helpfulness and harmlessness.