ChatPaper.aiChatPaper

Red-Teaming efficace di Agenti Conformi alle Politiche

Effective Red-Teaming of Policy-Adherent Agents

June 11, 2025
Autori: Itay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor
cs.AI

Abstract

Gli agenti basati su LLM orientati ai compiti sono sempre più utilizzati in domini con politiche rigide, come l'idoneità al rimborso o le regole di cancellazione. La sfida risiede nel garantire che l'agente aderisca costantemente a queste regole e politiche, rifiutando appropriatamente qualsiasi richiesta che le violerebbe, pur mantenendo un'interazione utile e naturale. Ciò richiede lo sviluppo di metodologie di progettazione e valutazione su misura per garantire la resilienza dell'agente contro comportamenti utente malevoli. Proponiamo un nuovo modello di minaccia che si concentra su utenti avversari che mirano a sfruttare agenti aderenti alle politiche per trarne vantaggio personale. Per affrontare questo problema, presentiamo CRAFT, un sistema di red-teaming multi-agente che sfrutta strategie persuasive consapevoli delle politiche per minare un agente aderente alle politiche in uno scenario di assistenza clienti, superando metodi convenzionali di jailbreak come i prompt DAN, la manipolazione emotiva e le tattiche coercitive. Basandoci sul benchmark esistente tau-bench, introduciamo tau-break, un benchmark complementare progettato per valutare rigorosamente la robustezza dell'agente contro comportamenti utente manipolativi. Infine, valutiamo diverse strategie di difesa semplici ma efficaci. Sebbene queste misure offrano una certa protezione, si rivelano insufficienti, evidenziando la necessità di salvaguardie più forti e basate sulla ricerca per proteggere gli agenti aderenti alle politiche da attacchi avversari.
English
Task-oriented LLM-based agents are increasingly used in domains with strict policies, such as refund eligibility or cancellation rules. The challenge lies in ensuring that the agent consistently adheres to these rules and policies, appropriately refusing any request that would violate them, while still maintaining a helpful and natural interaction. This calls for the development of tailored design and evaluation methodologies to ensure agent resilience against malicious user behavior. We propose a novel threat model that focuses on adversarial users aiming to exploit policy-adherent agents for personal benefit. To address this, we present CRAFT, a multi-agent red-teaming system that leverages policy-aware persuasive strategies to undermine a policy-adherent agent in a customer-service scenario, outperforming conventional jailbreak methods such as DAN prompts, emotional manipulation, and coercive. Building upon the existing tau-bench benchmark, we introduce tau-break, a complementary benchmark designed to rigorously assess the agent's robustness against manipulative user behavior. Finally, we evaluate several straightforward yet effective defense strategies. While these measures provide some protection, they fall short, highlighting the need for stronger, research-driven safeguards to protect policy-adherent agents from adversarial attacks
PDF372June 16, 2025