Progent: Controllo Programmabile dei Privilegi per Agenti LLM

Abstract

Gli agenti LLM rappresentano una forma emergente di sistemi di intelligenza artificiale in cui i modelli linguistici di grandi dimensioni (LLM) fungono da componente centrale, utilizzando un insieme diversificato di strumenti per completare i compiti assegnati dagli utenti. Nonostante il loro grande potenziale, gli agenti LLM presentano significativi rischi per la sicurezza. Quando interagiscono con il mondo esterno, potrebbero incontrare comandi malevoli da parte di attaccanti, portando all'esecuzione di azioni pericolose. Un modo promettente per affrontare questo problema è l'applicazione del principio del privilegio minimo: consentire solo le azioni essenziali per il completamento del compito, bloccando quelle non necessarie. Tuttavia, raggiungere questo obiettivo è complesso, poiché richiede di coprire una vasta gamma di scenari degli agenti mantenendo sia la sicurezza che l'utilità. Introduciamo Progent, il primo meccanismo di controllo dei privilegi per gli agenti LLM. Al suo cuore c'è un linguaggio specifico per il dominio che consente di esprimere in modo flessibile le politiche di controllo dei privilegi applicate durante l'esecuzione dell'agente. Queste politiche forniscono vincoli granulari sulle chiamate agli strumenti, decidendo quando le chiamate sono consentite e specificando alternative nel caso non lo siano. Ciò permette agli sviluppatori e agli utenti degli agenti di creare politiche adatte ai loro casi d'uso specifici e di applicarle in modo deterministico per garantire la sicurezza. Grazie al suo design modulare, l'integrazione di Progent non altera gli interni dell'agente e richiede solo modifiche minime all'implementazione, migliorandone la praticità e il potenziale di adozione diffusa. Per automatizzare la scrittura delle politiche, sfruttiamo gli LLM per generare politiche basate sulle query degli utenti, che vengono poi aggiornate dinamicamente per migliorare sicurezza e utilità. La nostra valutazione estensiva dimostra che Progent consente una forte sicurezza mantenendo un'elevata utilità in tre scenari o benchmark distinti: AgentDojo, ASB e AgentPoison. Inoltre, eseguiamo un'analisi approfondita, evidenziando l'efficacia dei suoi componenti principali e la resilienza della sua generazione automatica di politiche contro attacchi adattativi.

English

LLM agents are an emerging form of AI systems where large language models (LLMs) serve as the central component, utilizing a diverse set of tools to complete user-assigned tasks. Despite their great potential, LLM agents pose significant security risks. When interacting with the external world, they may encounter malicious commands from attackers, leading to the execution of dangerous actions. A promising way to address this is by enforcing the principle of least privilege: allowing only essential actions for task completion while blocking unnecessary ones. However, achieving this is challenging, as it requires covering diverse agent scenarios while preserving both security and utility. We introduce Progent, the first privilege control mechanism for LLM agents. At its core is a domain-specific language for flexibly expressing privilege control policies applied during agent execution. These policies provide fine-grained constraints over tool calls, deciding when tool calls are permissible and specifying fallbacks if they are not. This enables agent developers and users to craft suitable policies for their specific use cases and enforce them deterministically to guarantee security. Thanks to its modular design, integrating Progent does not alter agent internals and requires only minimal changes to agent implementation, enhancing its practicality and potential for widespread adoption. To automate policy writing, we leverage LLMs to generate policies based on user queries, which are then updated dynamically for improved security and utility. Our extensive evaluation shows that it enables strong security while preserving high utility across three distinct scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we perform an in-depth analysis, showcasing the effectiveness of its core components and the resilience of its automated policy generation against adaptive attacks.

Progent: Controllo Programmabile dei Privilegi per Agenti LLM

Progent: Programmable Privilege Control for LLM Agents

Abstract

Support