ChatPaper.aiChatPaper

Red-Teaming efficace des agents conformes aux politiques

Effective Red-Teaming of Policy-Adherent Agents

June 11, 2025
Auteurs: Itay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor
cs.AI

Résumé

Les agents basés sur des modèles de langage (LLM) orientés tâches sont de plus en plus utilisés dans des domaines soumis à des politiques strictes, telles que l'éligibilité aux remboursements ou les règles d'annulation. Le défi réside dans la garantie que l'agent adhère systématiquement à ces règles et politiques, refusant de manière appropriée toute demande qui les violerait, tout en maintenant une interaction utile et naturelle. Cela nécessite le développement de méthodologies de conception et d'évaluation sur mesure pour assurer la résilience de l'agent face aux comportements malveillants des utilisateurs. Nous proposons un nouveau modèle de menace qui se concentre sur les utilisateurs adversaires cherchant à exploiter des agents respectueux des politiques à des fins personnelles. Pour y remédier, nous présentons CRAFT, un système de red-teaming multi-agents qui exploite des stratégies persuasives conscientes des politiques pour compromettre un agent respectueux des politiques dans un scénario de service client, surpassant les méthodes conventionnelles de contournement telles que les prompts DAN, la manipulation émotionnelle et la coercition. En nous appuyant sur le benchmark existant tau-bench, nous introduisons tau-break, un benchmark complémentaire conçu pour évaluer rigoureusement la robustesse de l'agent face aux comportements manipulateurs des utilisateurs. Enfin, nous évaluons plusieurs stratégies de défense simples mais efficaces. Bien que ces mesures offrent une certaine protection, elles restent insuffisantes, soulignant la nécessité de protections plus solides, fondées sur la recherche, pour protéger les agents respectueux des politiques contre les attaques adverses.
English
Task-oriented LLM-based agents are increasingly used in domains with strict policies, such as refund eligibility or cancellation rules. The challenge lies in ensuring that the agent consistently adheres to these rules and policies, appropriately refusing any request that would violate them, while still maintaining a helpful and natural interaction. This calls for the development of tailored design and evaluation methodologies to ensure agent resilience against malicious user behavior. We propose a novel threat model that focuses on adversarial users aiming to exploit policy-adherent agents for personal benefit. To address this, we present CRAFT, a multi-agent red-teaming system that leverages policy-aware persuasive strategies to undermine a policy-adherent agent in a customer-service scenario, outperforming conventional jailbreak methods such as DAN prompts, emotional manipulation, and coercive. Building upon the existing tau-bench benchmark, we introduce tau-break, a complementary benchmark designed to rigorously assess the agent's robustness against manipulative user behavior. Finally, we evaluate several straightforward yet effective defense strategies. While these measures provide some protection, they fall short, highlighting the need for stronger, research-driven safeguards to protect policy-adherent agents from adversarial attacks
PDF362June 16, 2025