Evaluación Efectiva de Agentes Conformes a Políticas mediante Técnicas de Red-Teaming
Effective Red-Teaming of Policy-Adherent Agents
June 11, 2025
Autores: Itay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor
cs.AI
Resumen
Los agentes basados en LLM orientados a tareas se utilizan cada vez más en dominios con políticas estrictas, como la elegibilidad para reembolsos o las normas de cancelación. El desafío radica en garantizar que el agente cumpla consistentemente con estas reglas y políticas, rechazando adecuadamente cualquier solicitud que las viole, mientras mantiene una interacción útil y natural. Esto requiere el desarrollo de metodologías de diseño y evaluación personalizadas para asegurar la resiliencia del agente frente a comportamientos maliciosos de los usuarios. Proponemos un nuevo modelo de amenaza que se centra en usuarios adversarios que buscan explotar agentes adherentes a políticas para beneficio personal. Para abordar esto, presentamos CRAFT, un sistema de red-teaming multiagente que aprovecha estrategias persuasivas conscientes de las políticas para socavar a un agente adherente a políticas en un escenario de servicio al cliente, superando métodos convencionales de jailbreak como los prompts DAN, la manipulación emocional y la coerción. Basándonos en el benchmark existente tau-bench, introducimos tau-break, un benchmark complementario diseñado para evaluar rigurosamente la robustez del agente frente a comportamientos manipuladores de los usuarios. Finalmente, evaluamos varias estrategias de defensa sencillas pero efectivas. Aunque estas medidas brindan cierta protección, resultan insuficientes, destacando la necesidad de salvaguardas más sólidas y basadas en investigación para proteger a los agentes adherentes a políticas de ataques adversarios.
English
Task-oriented LLM-based agents are increasingly used in domains with strict
policies, such as refund eligibility or cancellation rules. The challenge lies
in ensuring that the agent consistently adheres to these rules and policies,
appropriately refusing any request that would violate them, while still
maintaining a helpful and natural interaction. This calls for the development
of tailored design and evaluation methodologies to ensure agent resilience
against malicious user behavior. We propose a novel threat model that focuses
on adversarial users aiming to exploit policy-adherent agents for personal
benefit. To address this, we present CRAFT, a multi-agent red-teaming system
that leverages policy-aware persuasive strategies to undermine a
policy-adherent agent in a customer-service scenario, outperforming
conventional jailbreak methods such as DAN prompts, emotional manipulation, and
coercive. Building upon the existing tau-bench benchmark, we introduce
tau-break, a complementary benchmark designed to rigorously assess the agent's
robustness against manipulative user behavior. Finally, we evaluate several
straightforward yet effective defense strategies. While these measures provide
some protection, they fall short, highlighting the need for stronger,
research-driven safeguards to protect policy-adherent agents from adversarial
attacks