ChatPaper.aiChatPaper

Effectieve Red-Teaming van Beleidsgetrouwe Agents

Effective Red-Teaming of Policy-Adherent Agents

June 11, 2025
Auteurs: Itay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor
cs.AI

Samenvatting

Taakgerichte LLM-gebaseerde agents worden steeds vaker gebruikt in domeinen met strikte beleidsregels, zoals restitutievoorwaarden of annuleringsregels. De uitdaging ligt in het garanderen dat de agent consistent deze regels en beleidslijnen naleeft, en verzoeken die deze zouden schenden op gepaste wijze weigert, terwijl toch een behulpzame en natuurlijke interactie behouden blijft. Dit vereist de ontwikkeling van op maat gemaakte ontwerp- en evaluatiemethodologieën om de veerkracht van de agent tegen kwaadwillig gebruikersgedrag te waarborgen. Wij stellen een nieuw bedreigingsmodel voor dat zich richt op adversariële gebruikers die beleidsgetrouwe agents willen misbruiken voor persoonlijk gewin. Om dit aan te pakken, presenteren we CRAFT, een multi-agent red-teaming systeem dat gebruikmaakt van beleidsbewuste overtuigingsstrategieën om een beleidsgetrouwe agent in een klantenservice-scenario te ondermijnen, en dat conventionele jailbreak-methoden zoals DAN-prompts, emotionele manipulatie en dwang overtreft. Op basis van de bestaande tau-bench benchmark introduceren we tau-break, een aanvullende benchmark die ontworpen is om de robuustheid van de agent tegen manipulatief gebruikersgedrag rigoureus te beoordelen. Tot slot evalueren we verschillende eenvoudige maar effectieve verdedigingsstrategieën. Hoewel deze maatregelen enige bescherming bieden, schieten ze tekort, wat de noodzaak onderstreept van sterkere, onderzoekgedreven veiligheidsmaatregelen om beleidsgetrouwe agents te beschermen tegen adversariële aanvallen.
English
Task-oriented LLM-based agents are increasingly used in domains with strict policies, such as refund eligibility or cancellation rules. The challenge lies in ensuring that the agent consistently adheres to these rules and policies, appropriately refusing any request that would violate them, while still maintaining a helpful and natural interaction. This calls for the development of tailored design and evaluation methodologies to ensure agent resilience against malicious user behavior. We propose a novel threat model that focuses on adversarial users aiming to exploit policy-adherent agents for personal benefit. To address this, we present CRAFT, a multi-agent red-teaming system that leverages policy-aware persuasive strategies to undermine a policy-adherent agent in a customer-service scenario, outperforming conventional jailbreak methods such as DAN prompts, emotional manipulation, and coercive. Building upon the existing tau-bench benchmark, we introduce tau-break, a complementary benchmark designed to rigorously assess the agent's robustness against manipulative user behavior. Finally, we evaluate several straightforward yet effective defense strategies. While these measures provide some protection, they fall short, highlighting the need for stronger, research-driven safeguards to protect policy-adherent agents from adversarial attacks
PDF382June 16, 2025