Effektives Red-Teaming von politiktreuen Agenten
Effective Red-Teaming of Policy-Adherent Agents
June 11, 2025
Autoren: Itay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor
cs.AI
Zusammenfassung
Aufgabenorientierte, LLM-basierte Agenten werden zunehmend in Domänen mit strengen Richtlinien eingesetzt, wie etwa bei der Rückerstattungsberechtigung oder Stornierungsregeln. Die Herausforderung besteht darin, sicherzustellen, dass der Agent diese Regeln und Richtlinien konsequent einhält, Anfragen, die gegen sie verstoßen würden, angemessen ablehnt und dabei dennoch eine hilfreiche und natürliche Interaktion aufrechterhält. Dies erfordert die Entwicklung maßgeschneiderter Design- und Evaluierungsmethoden, um die Widerstandsfähigkeit des Agenten gegen bösartiges Benutzerverhalten zu gewährleisten. Wir schlagen ein neuartiges Bedrohungsmodell vor, das sich auf adversarische Benutzer konzentriert, die darauf abzielen, richtlinientreue Agenten für persönliche Vorteile auszunutzen. Um dies zu adressieren, präsentieren wir CRAFT, ein Multi-Agenten-Red-Teaming-System, das politikbewusste Überzeugungsstrategien nutzt, um einen richtlinientreuen Agenten in einem Kundenservice-Szenario zu untergraben und dabei herkömmliche Jailbreak-Methoden wie DAN-Prompts, emotionale Manipulation und Zwang zu übertreffen. Aufbauend auf dem bestehenden tau-bench-Benchmark führen wir tau-break ein, einen komplementären Benchmark, der darauf abzielt, die Robustheit des Agenten gegen manipulative Benutzerverhalten rigoros zu bewerten. Schließlich evaluieren wir mehrere einfache, aber effektive Verteidigungsstrategien. Während diese Maßnahmen einen gewissen Schutz bieten, reichen sie nicht aus, was die Notwendigkeit stärkerer, forschungsgetriebener Sicherheitsvorkehrungen unterstreicht, um richtlinientreue Agenten vor adversarischen Angriffen zu schützen.
English
Task-oriented LLM-based agents are increasingly used in domains with strict
policies, such as refund eligibility or cancellation rules. The challenge lies
in ensuring that the agent consistently adheres to these rules and policies,
appropriately refusing any request that would violate them, while still
maintaining a helpful and natural interaction. This calls for the development
of tailored design and evaluation methodologies to ensure agent resilience
against malicious user behavior. We propose a novel threat model that focuses
on adversarial users aiming to exploit policy-adherent agents for personal
benefit. To address this, we present CRAFT, a multi-agent red-teaming system
that leverages policy-aware persuasive strategies to undermine a
policy-adherent agent in a customer-service scenario, outperforming
conventional jailbreak methods such as DAN prompts, emotional manipulation, and
coercive. Building upon the existing tau-bench benchmark, we introduce
tau-break, a complementary benchmark designed to rigorously assess the agent's
robustness against manipulative user behavior. Finally, we evaluate several
straightforward yet effective defense strategies. While these measures provide
some protection, they fall short, highlighting the need for stronger,
research-driven safeguards to protect policy-adherent agents from adversarial
attacks