Testagem Eficaz de Agentes Conformes a Políticas
Effective Red-Teaming of Policy-Adherent Agents
June 11, 2025
Autores: Itay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor
cs.AI
Resumo
Agentes baseados em LLM (Large Language Models) orientados a tarefas estão sendo cada vez mais utilizados em domínios com políticas rigorosas, como elegibilidade para reembolsos ou regras de cancelamento. O desafio reside em garantir que o agente adira consistentemente a essas regras e políticas, recusando adequadamente qualquer solicitação que as viole, ao mesmo tempo em que mantém uma interação útil e natural. Isso exige o desenvolvimento de metodologias de design e avaliação personalizadas para garantir a resiliência do agente contra comportamentos maliciosos dos usuários. Propomos um novo modelo de ameaça que se concentra em usuários adversários que visam explorar agentes aderentes a políticas para benefício pessoal. Para abordar isso, apresentamos o CRAFT, um sistema de red-teaming multiagente que utiliza estratégias persuasivas conscientes das políticas para minar um agente aderente a políticas em um cenário de atendimento ao cliente, superando métodos convencionais de jailbreak, como prompts DAN, manipulação emocional e coercitivos. Com base no benchmark existente tau-bench, introduzimos o tau-break, um benchmark complementar projetado para avaliar rigorosamente a robustez do agente contra comportamentos manipulativos dos usuários. Por fim, avaliamos várias estratégias de defesa simples, porém eficazes. Embora essas medidas ofereçam alguma proteção, elas se mostram insuficientes, destacando a necessidade de salvaguardas mais fortes e baseadas em pesquisa para proteger agentes aderentes a políticas de ataques adversários.
English
Task-oriented LLM-based agents are increasingly used in domains with strict
policies, such as refund eligibility or cancellation rules. The challenge lies
in ensuring that the agent consistently adheres to these rules and policies,
appropriately refusing any request that would violate them, while still
maintaining a helpful and natural interaction. This calls for the development
of tailored design and evaluation methodologies to ensure agent resilience
against malicious user behavior. We propose a novel threat model that focuses
on adversarial users aiming to exploit policy-adherent agents for personal
benefit. To address this, we present CRAFT, a multi-agent red-teaming system
that leverages policy-aware persuasive strategies to undermine a
policy-adherent agent in a customer-service scenario, outperforming
conventional jailbreak methods such as DAN prompts, emotional manipulation, and
coercive. Building upon the existing tau-bench benchmark, we introduce
tau-break, a complementary benchmark designed to rigorously assess the agent's
robustness against manipulative user behavior. Finally, we evaluate several
straightforward yet effective defense strategies. While these measures provide
some protection, they fall short, highlighting the need for stronger,
research-driven safeguards to protect policy-adherent agents from adversarial
attacks