Progent: Программируемое управление привилегиями для агентов на основе больших языковых моделей

Аннотация

Агенты на основе больших языковых моделей (LLM) представляют собой новую форму ИИ-систем, где крупные языковые модели выступают в качестве центрального компонента, используя разнообразный набор инструментов для выполнения задач, поставленных пользователем. Несмотря на их огромный потенциал, такие агенты несут значительные риски для безопасности. При взаимодействии с внешним миром они могут столкнуться с вредоносными командами от злоумышленников, что может привести к выполнению опасных действий. Перспективным подходом к решению этой проблемы является применение принципа минимальных привилегий: разрешение только тех действий, которые необходимы для выполнения задачи, при блокировке всех остальных. Однако реализация этого принципа сложна, так как требует охвата разнообразных сценариев работы агентов при сохранении как безопасности, так и функциональности. Мы представляем Progent — первый механизм контроля привилегий для агентов на основе LLM. Его основой является специализированный язык для гибкого выражения политик контроля привилегий, применяемых во время выполнения агента. Эти политики обеспечивают детализированные ограничения на вызовы инструментов, определяя, когда такие вызовы допустимы, и указывая альтернативные действия в случае их запрета. Это позволяет разработчикам и пользователям агентов создавать подходящие политики для конкретных сценариев использования и применять их детерминированно для обеспечения безопасности. Благодаря модульной архитектуре, интеграция Progent не требует изменения внутренней структуры агента и предполагает лишь минимальные изменения в его реализации, что повышает практичность и потенциал для широкого внедрения. Для автоматизации написания политик мы используем LLM, которые генерируют политики на основе запросов пользователя, а затем динамически обновляют их для улучшения безопасности и функциональности. Наши обширные эксперименты показывают, что Progent обеспечивает высокий уровень безопасности при сохранении функциональности в трех различных сценариях или тестах: AgentDojo, ASB и AgentPoison. Кроме того, мы проводим детальный анализ, демонстрирующий эффективность его ключевых компонентов и устойчивость автоматической генерации политик к адаптивным атакам.

English

LLM agents are an emerging form of AI systems where large language models (LLMs) serve as the central component, utilizing a diverse set of tools to complete user-assigned tasks. Despite their great potential, LLM agents pose significant security risks. When interacting with the external world, they may encounter malicious commands from attackers, leading to the execution of dangerous actions. A promising way to address this is by enforcing the principle of least privilege: allowing only essential actions for task completion while blocking unnecessary ones. However, achieving this is challenging, as it requires covering diverse agent scenarios while preserving both security and utility. We introduce Progent, the first privilege control mechanism for LLM agents. At its core is a domain-specific language for flexibly expressing privilege control policies applied during agent execution. These policies provide fine-grained constraints over tool calls, deciding when tool calls are permissible and specifying fallbacks if they are not. This enables agent developers and users to craft suitable policies for their specific use cases and enforce them deterministically to guarantee security. Thanks to its modular design, integrating Progent does not alter agent internals and requires only minimal changes to agent implementation, enhancing its practicality and potential for widespread adoption. To automate policy writing, we leverage LLMs to generate policies based on user queries, which are then updated dynamically for improved security and utility. Our extensive evaluation shows that it enables strong security while preserving high utility across three distinct scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we perform an in-depth analysis, showcasing the effectiveness of its core components and the resilience of its automated policy generation against adaptive attacks.

Progent: Программируемое управление привилегиями для агентов на основе больших языковых моделей

Progent: Programmable Privilege Control for LLM Agents

Аннотация

Support