ChatPaper.aiChatPaper

"Вальс согласования: совместное обучение агентов для безопасного сотрудничества"

The Alignment Waltz: Jointly Training Agents to Collaborate for Safety

October 9, 2025
Авторы: Jingyu Zhang, Haozhu Wang, Eric Michael Smith, Sid Wang, Amr Sharaf, Mahesh Pasupuleti, Benjamin Van Durme, Daniel Khashabi, Jason Weston, Hongyuan Zhan
cs.AI

Аннотация

Использование возможностей больших языковых моделей (LLM) требует тонкого баланса между полезностью и безопасностью. Это создает фундаментальное напряжение между двумя конкурирующими вызовами: уязвимостью к атакующим воздействиям, которые провоцируют небезопасный контент, и склонностью к чрезмерному отказу на безобидные, но чувствительные запросы. Современные подходы часто решают эту задачу с помощью моделей-защитников, которые полностью отвергают любой контент, содержащий небезопасные элементы. Такой подход полностью "выключает музыку" — он может усугубить чрезмерные отказы и не предоставляет детальных рекомендаций для запросов, которые отвергает. Чтобы научить модели более скоординированной "хореографии", мы предлагаем WaltzRL — новую многоагентную систему обучения с подкреплением, которая формулирует безопасное согласование как совместную игру с положительной суммой. WaltzRL совместно обучает агента-собеседника и агента-фидбека, где последний мотивирован предоставлять полезные предложения, улучшающие безопасность и полезность ответов агента-собеседника. В основе WaltzRL лежит Динамическая Награда за Улучшение (DIR), которая развивается со временем в зависимости от того, насколько хорошо агент-собеседник учитывает обратную связь. На этапе вывода небезопасные или чрезмерно отказывающие ответы агента-собеседника улучшаются, а не отвергаются. Агент-фидбек развертывается вместе с агентом-собеседником и включается адаптивно только при необходимости, сохраняя полезность и низкую задержку для безопасных запросов. Наши эксперименты, проведенные на пяти разнообразных наборах данных, демонстрируют, что WaltzRL значительно сокращает как небезопасные ответы (например, с 39,0% до 4,6% на WildJailbreak), так и чрезмерные отказы (с 45,3% до 9,9% на OR-Bench) по сравнению с различными базовыми подходами. Благодаря совместной эволюции агента-собеседника и агента-фидбека и адаптивному применению обратной связи, WaltzRL повышает безопасность LLM без ухудшения общих возможностей, тем самым продвигая парето-фронт между полезностью и безопасностью.
English
Harnessing the power of LLMs requires a delicate dance between being helpful and harmless. This creates a fundamental tension between two competing challenges: vulnerability to adversarial attacks that elicit unsafe content, and a tendency for overrefusal on benign but sensitive prompts. Current approaches often navigate this dance with safeguard models that completely reject any content that contains unsafe portions. This approach cuts the music entirely-it may exacerbate overrefusals and fails to provide nuanced guidance for queries it refuses. To teach models a more coordinated choreography, we propose WaltzRL, a novel multi-agent reinforcement learning framework that formulates safety alignment as a collaborative, positive-sum game. WaltzRL jointly trains a conversation agent and a feedback agent, where the latter is incentivized to provide useful suggestions that improve the safety and helpfulness of the conversation agent's responses. At the core of WaltzRL is a Dynamic Improvement Reward (DIR) that evolves over time based on how well the conversation agent incorporates the feedback. At inference time, unsafe or overrefusing responses from the conversation agent are improved rather than discarded. The feedback agent is deployed together with the conversation agent and only engages adaptively when needed, preserving helpfulness and low latency on safe queries. Our experiments, conducted across five diverse datasets, demonstrate that WaltzRL significantly reduces both unsafe responses (e.g., from 39.0% to 4.6% on WildJailbreak) and overrefusals (from 45.3% to 9.9% on OR-Bench) compared to various baselines. By enabling the conversation and feedback agents to co-evolve and adaptively apply feedback, WaltzRL enhances LLM safety without degrading general capabilities, thereby advancing the Pareto front between helpfulness and harmlessness.
PDF332October 10, 2025