Progent: Программируемое управление привилегиями для агентов на основе больших языковых моделей
Progent: Programmable Privilege Control for LLM Agents
April 16, 2025
Авторы: Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song
cs.AI
Аннотация
Агенты на основе больших языковых моделей (LLM) представляют собой новую форму ИИ-систем, где крупные языковые модели выступают в качестве центрального компонента, используя разнообразный набор инструментов для выполнения задач, поставленных пользователем. Несмотря на их огромный потенциал, такие агенты несут значительные риски для безопасности. При взаимодействии с внешним миром они могут столкнуться с вредоносными командами от злоумышленников, что может привести к выполнению опасных действий. Перспективным подходом к решению этой проблемы является применение принципа минимальных привилегий: разрешение только тех действий, которые необходимы для выполнения задачи, при блокировке всех остальных. Однако реализация этого принципа сложна, так как требует охвата разнообразных сценариев работы агентов при сохранении как безопасности, так и функциональности.
Мы представляем Progent — первый механизм контроля привилегий для агентов на основе LLM. Его основой является специализированный язык для гибкого выражения политик контроля привилегий, применяемых во время выполнения агента. Эти политики обеспечивают детализированные ограничения на вызовы инструментов, определяя, когда такие вызовы допустимы, и указывая альтернативные действия в случае их запрета. Это позволяет разработчикам и пользователям агентов создавать подходящие политики для конкретных сценариев использования и применять их детерминированно для обеспечения безопасности. Благодаря модульной архитектуре, интеграция Progent не требует изменения внутренней структуры агента и предполагает лишь минимальные изменения в его реализации, что повышает практичность и потенциал для широкого внедрения. Для автоматизации написания политик мы используем LLM, которые генерируют политики на основе запросов пользователя, а затем динамически обновляют их для улучшения безопасности и функциональности. Наши обширные эксперименты показывают, что Progent обеспечивает высокий уровень безопасности при сохранении функциональности в трех различных сценариях или тестах: AgentDojo, ASB и AgentPoison. Кроме того, мы проводим детальный анализ, демонстрирующий эффективность его ключевых компонентов и устойчивость автоматической генерации политик к адаптивным атакам.
English
LLM agents are an emerging form of AI systems where large language models
(LLMs) serve as the central component, utilizing a diverse set of tools to
complete user-assigned tasks. Despite their great potential, LLM agents pose
significant security risks. When interacting with the external world, they may
encounter malicious commands from attackers, leading to the execution of
dangerous actions. A promising way to address this is by enforcing the
principle of least privilege: allowing only essential actions for task
completion while blocking unnecessary ones. However, achieving this is
challenging, as it requires covering diverse agent scenarios while preserving
both security and utility.
We introduce Progent, the first privilege control mechanism for LLM agents.
At its core is a domain-specific language for flexibly expressing privilege
control policies applied during agent execution. These policies provide
fine-grained constraints over tool calls, deciding when tool calls are
permissible and specifying fallbacks if they are not. This enables agent
developers and users to craft suitable policies for their specific use cases
and enforce them deterministically to guarantee security. Thanks to its modular
design, integrating Progent does not alter agent internals and requires only
minimal changes to agent implementation, enhancing its practicality and
potential for widespread adoption. To automate policy writing, we leverage LLMs
to generate policies based on user queries, which are then updated dynamically
for improved security and utility. Our extensive evaluation shows that it
enables strong security while preserving high utility across three distinct
scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we
perform an in-depth analysis, showcasing the effectiveness of its core
components and the resilience of its automated policy generation against
adaptive attacks.Summary
AI-Generated Summary