Эффективное тестирование на проникновение агентов, следующих политике
Effective Red-Teaming of Policy-Adherent Agents
June 11, 2025
Авторы: Itay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor
cs.AI
Аннотация
Агенты на основе языковых моделей (LLM), ориентированные на выполнение задач, все чаще используются в областях с жесткими политиками, такими как правила возврата средств или отмены заказов. Основная сложность заключается в обеспечении того, чтобы агент последовательно соблюдал эти правила и политики, корректно отклоняя любые запросы, которые могли бы их нарушить, при этом сохраняя полезное и естественное взаимодействие. Это требует разработки специализированных методологий проектирования и оценки, чтобы обеспечить устойчивость агентов к злонамеренному поведению пользователей. Мы предлагаем новую модель угроз, которая фокусируется на злоумышленниках, стремящихся использовать агентов, придерживающихся политик, для личной выгоды. Для решения этой проблемы мы представляем CRAFT — систему многопользовательского тестирования на проникновение, которая использует стратегии убеждения, учитывающие политики, чтобы подорвать работу агента, придерживающегося политик, в сценарии обслуживания клиентов, превосходя традиционные методы взлома, такие как DAN-подсказки, эмоциональное манипулирование и принуждение. На основе существующего бенчмарка tau-bench мы представляем tau-break — дополнительный бенчмарк, предназначенный для строгой оценки устойчивости агента к манипулятивному поведению пользователей. Наконец, мы оцениваем несколько простых, но эффективных стратегий защиты. Хотя эти меры обеспечивают некоторую защиту, они оказываются недостаточными, что подчеркивает необходимость более сильных, научно обоснованных механизмов защиты для защиты агентов, придерживающихся политик, от атак злоумышленников.
English
Task-oriented LLM-based agents are increasingly used in domains with strict
policies, such as refund eligibility or cancellation rules. The challenge lies
in ensuring that the agent consistently adheres to these rules and policies,
appropriately refusing any request that would violate them, while still
maintaining a helpful and natural interaction. This calls for the development
of tailored design and evaluation methodologies to ensure agent resilience
against malicious user behavior. We propose a novel threat model that focuses
on adversarial users aiming to exploit policy-adherent agents for personal
benefit. To address this, we present CRAFT, a multi-agent red-teaming system
that leverages policy-aware persuasive strategies to undermine a
policy-adherent agent in a customer-service scenario, outperforming
conventional jailbreak methods such as DAN prompts, emotional manipulation, and
coercive. Building upon the existing tau-bench benchmark, we introduce
tau-break, a complementary benchmark designed to rigorously assess the agent's
robustness against manipulative user behavior. Finally, we evaluate several
straightforward yet effective defense strategies. While these measures provide
some protection, they fall short, highlighting the need for stronger,
research-driven safeguards to protect policy-adherent agents from adversarial
attacks