Progent: Programmierbare Berechtigungskontrolle für LLM-Agenten
Progent: Programmable Privilege Control for LLM Agents
April 16, 2025
Autoren: Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song
cs.AI
Zusammenfassung
LLM-Agenten sind eine aufstrebende Form von KI-Systemen, bei denen große Sprachmodelle (LLMs) als zentrale Komponente fungieren und eine Vielzahl von Werkzeugen nutzen, um vom Benutzer zugewiesene Aufgaben zu erledigen. Trotz ihres großen Potenzials bergen LLM-Agenten erhebliche Sicherheitsrisiken. Bei der Interaktion mit der externen Welt können sie auf bösartige Befehle von Angreifern stoßen, was zur Ausführung gefährlicher Aktionen führen kann. Ein vielversprechender Ansatz, dies zu adressieren, ist die Durchsetzung des Prinzips der geringsten Rechte: Es werden nur die wesentlichen Aktionen zur Aufgabenbewältigung erlaubt, während unnötige blockiert werden. Dies zu erreichen ist jedoch herausfordernd, da es die Abdeckung verschiedener Agentenszenarien erfordert, während sowohl Sicherheit als auch Nutzen erhalten bleiben.
Wir stellen Progent vor, den ersten Rechtekontrollmechanismus für LLM-Agenten. Im Kern steht eine domänenspezifische Sprache, die es ermöglicht, flexibel Rechtekontrollrichtlinien auszudrücken, die während der Agentenausführung angewendet werden. Diese Richtlinien bieten fein abgestimmte Einschränkungen für Werkzeugaufrufe, entscheiden, wann Werkzeugaufrufe zulässig sind, und legen Fallbacks fest, falls sie es nicht sind. Dies ermöglicht es Agentenentwicklern und -nutzern, geeignete Richtlinien für ihre spezifischen Anwendungsfälle zu erstellen und sie deterministisch durchzusetzen, um Sicherheit zu gewährleisten. Dank seines modularen Designs verändert die Integration von Progent nicht die internen Strukturen des Agenten und erfordert nur minimale Änderungen an der Agentenimplementierung, was seine Praktikabilität und das Potenzial für eine breite Akzeptanz erhöht. Um das Schreiben von Richtlinien zu automatisieren, nutzen wir LLMs, um Richtlinien basierend auf Benutzeranfragen zu generieren, die dann dynamisch aktualisiert werden, um Sicherheit und Nutzen zu verbessern. Unsere umfangreiche Auswertung zeigt, dass es starke Sicherheit ermöglicht, während ein hoher Nutzen über drei verschiedene Szenarien oder Benchmarks hinweg erhalten bleibt: AgentDojo, ASB und AgentPoison. Darüber hinaus führen wir eine detaillierte Analyse durch, die die Wirksamkeit seiner Kernkomponenten und die Widerstandsfähigkeit seiner automatisierten Richtliniengenerierung gegen adaptive Angriffe demonstriert.
English
LLM agents are an emerging form of AI systems where large language models
(LLMs) serve as the central component, utilizing a diverse set of tools to
complete user-assigned tasks. Despite their great potential, LLM agents pose
significant security risks. When interacting with the external world, they may
encounter malicious commands from attackers, leading to the execution of
dangerous actions. A promising way to address this is by enforcing the
principle of least privilege: allowing only essential actions for task
completion while blocking unnecessary ones. However, achieving this is
challenging, as it requires covering diverse agent scenarios while preserving
both security and utility.
We introduce Progent, the first privilege control mechanism for LLM agents.
At its core is a domain-specific language for flexibly expressing privilege
control policies applied during agent execution. These policies provide
fine-grained constraints over tool calls, deciding when tool calls are
permissible and specifying fallbacks if they are not. This enables agent
developers and users to craft suitable policies for their specific use cases
and enforce them deterministically to guarantee security. Thanks to its modular
design, integrating Progent does not alter agent internals and requires only
minimal changes to agent implementation, enhancing its practicality and
potential for widespread adoption. To automate policy writing, we leverage LLMs
to generate policies based on user queries, which are then updated dynamically
for improved security and utility. Our extensive evaluation shows that it
enables strong security while preserving high utility across three distinct
scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we
perform an in-depth analysis, showcasing the effectiveness of its core
components and the resilience of its automated policy generation against
adaptive attacks.Summary
AI-Generated Summary