Progent: Programmierbare Berechtigungskontrolle für LLM-Agenten

papers.abstract

LLM-Agenten sind eine aufstrebende Form von KI-Systemen, bei denen große Sprachmodelle (LLMs) als zentrale Komponente fungieren und eine Vielzahl von Werkzeugen nutzen, um vom Benutzer zugewiesene Aufgaben zu erledigen. Trotz ihres großen Potenzials bergen LLM-Agenten erhebliche Sicherheitsrisiken. Bei der Interaktion mit der externen Welt können sie auf bösartige Befehle von Angreifern stoßen, was zur Ausführung gefährlicher Aktionen führen kann. Ein vielversprechender Ansatz, dies zu adressieren, ist die Durchsetzung des Prinzips der geringsten Rechte: Es werden nur die wesentlichen Aktionen zur Aufgabenbewältigung erlaubt, während unnötige blockiert werden. Dies zu erreichen ist jedoch herausfordernd, da es die Abdeckung verschiedener Agentenszenarien erfordert, während sowohl Sicherheit als auch Nutzen erhalten bleiben. Wir stellen Progent vor, den ersten Rechtekontrollmechanismus für LLM-Agenten. Im Kern steht eine domänenspezifische Sprache, die es ermöglicht, flexibel Rechtekontrollrichtlinien auszudrücken, die während der Agentenausführung angewendet werden. Diese Richtlinien bieten fein abgestimmte Einschränkungen für Werkzeugaufrufe, entscheiden, wann Werkzeugaufrufe zulässig sind, und legen Fallbacks fest, falls sie es nicht sind. Dies ermöglicht es Agentenentwicklern und -nutzern, geeignete Richtlinien für ihre spezifischen Anwendungsfälle zu erstellen und sie deterministisch durchzusetzen, um Sicherheit zu gewährleisten. Dank seines modularen Designs verändert die Integration von Progent nicht die internen Strukturen des Agenten und erfordert nur minimale Änderungen an der Agentenimplementierung, was seine Praktikabilität und das Potenzial für eine breite Akzeptanz erhöht. Um das Schreiben von Richtlinien zu automatisieren, nutzen wir LLMs, um Richtlinien basierend auf Benutzeranfragen zu generieren, die dann dynamisch aktualisiert werden, um Sicherheit und Nutzen zu verbessern. Unsere umfangreiche Auswertung zeigt, dass es starke Sicherheit ermöglicht, während ein hoher Nutzen über drei verschiedene Szenarien oder Benchmarks hinweg erhalten bleibt: AgentDojo, ASB und AgentPoison. Darüber hinaus führen wir eine detaillierte Analyse durch, die die Wirksamkeit seiner Kernkomponenten und die Widerstandsfähigkeit seiner automatisierten Richtliniengenerierung gegen adaptive Angriffe demonstriert.

English

LLM agents are an emerging form of AI systems where large language models (LLMs) serve as the central component, utilizing a diverse set of tools to complete user-assigned tasks. Despite their great potential, LLM agents pose significant security risks. When interacting with the external world, they may encounter malicious commands from attackers, leading to the execution of dangerous actions. A promising way to address this is by enforcing the principle of least privilege: allowing only essential actions for task completion while blocking unnecessary ones. However, achieving this is challenging, as it requires covering diverse agent scenarios while preserving both security and utility. We introduce Progent, the first privilege control mechanism for LLM agents. At its core is a domain-specific language for flexibly expressing privilege control policies applied during agent execution. These policies provide fine-grained constraints over tool calls, deciding when tool calls are permissible and specifying fallbacks if they are not. This enables agent developers and users to craft suitable policies for their specific use cases and enforce them deterministically to guarantee security. Thanks to its modular design, integrating Progent does not alter agent internals and requires only minimal changes to agent implementation, enhancing its practicality and potential for widespread adoption. To automate policy writing, we leverage LLMs to generate policies based on user queries, which are then updated dynamically for improved security and utility. Our extensive evaluation shows that it enables strong security while preserving high utility across three distinct scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we perform an in-depth analysis, showcasing the effectiveness of its core components and the resilience of its automated policy generation against adaptive attacks.

Progent: Programmierbare Berechtigungskontrolle für LLM-Agenten

Progent: Programmable Privilege Control for LLM Agents

papers.abstract

Support