Esecuzione in CIRCOLO? Un Semplice Benchmark per la Sicurezza degli Interpreti di Codice nei Modelli Linguistici

Abstract

Man mano che i grandi modelli linguistici (LLM) integrano sempre più interpreti di codice nativo, abilitano potenti capacità di esecuzione in tempo reale, ampliando sostanzialmente la loro utilità. Tuttavia, tali integrazioni introducono potenziali minacce informatiche a livello di sistema, fondamentalmente diverse dalle vulnerabilità basate su prompt. Per valutare sistematicamente questi rischi specifici degli interpreti, proponiamo CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), un semplice benchmark composto da 1.260 prompt che mirano all'esaurimento delle risorse di CPU, memoria e disco. Ogni categoria di rischio include varianti di prompt esplicitamente maliziose ("dirette") e plausibilmente innocue ("indirette"). Il nostro framework di valutazione automatizzato non solo verifica se gli LLM rifiutano o generano codice rischioso, ma esegue anche il codice generato all'interno dell'ambiente dell'interprete per valutare la correttezza del codice, le semplificazioni apportate dall'LLM per rendere il codice sicuro o i timeout di esecuzione. Valutando 7 modelli commercialmente disponibili di OpenAI e Google, abbiamo scoperto vulnerabilità significative e inconsistenti. Ad esempio, le valutazioni mostrano disparità sostanziali anche all'interno degli stessi fornitori: il modello o4-mini di OpenAI rifiuta correttamente le richieste rischiose al 7,1%, un tasso notevolmente più alto rispetto a GPT-4.1 allo 0,5%. I risultati sottolineano in particolare che i prompt indiretti, progettati socialmente, indeboliscono sostanzialmente le difese del modello. Ciò evidenzia un urgente bisogno di benchmark di sicurezza informatica specifici per gli interpreti, strumenti dedicati di mitigazione (ad esempio, guardrail) e standard chiari del settore per guidare un'implementazione sicura e responsabile delle integrazioni degli interpreti negli LLM. Il dataset del benchmark e il codice di valutazione sono stati rilasciati pubblicamente per favorire ulteriori ricerche.

English

As large language models (LLMs) increasingly integrate native code interpreters, they enable powerful real-time execution capabilities, substantially expanding their utility. However, such integrations introduce potential system-level cybersecurity threats, fundamentally different from prompt-based vulnerabilities. To systematically evaluate these interpreter-specific risks, we propose CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), a simple benchmark comprising 1,260 prompts targeting CPU, memory, and disk resource exhaustion. Each risk category includes explicitly malicious ("direct") and plausibly benign ("indirect") prompt variants. Our automated evaluation framework assesses not only whether LLMs refuse or generates risky code, but also executes the generated code within the interpreter environment to evaluate code correctness, simplifications made by the LLM to make the code safe, or execution timeouts. Evaluating 7 commercially available models from OpenAI and Google, we uncover significant and inconsistent vulnerabilities. For instance, evaluations show substantial disparities even within providers - OpenAI's o4-mini correctly refuses risky requests at 7.1%, notably higher rates compared to GPT-4.1 at 0.5%. Results particularly underscore that indirect, socially-engineered prompts substantially weaken model defenses. This highlights an urgent need for interpreter-specific cybersecurity benchmarks, dedicated mitigation tools (e.g., guardrails), and clear industry standards to guide safe and responsible deployment of LLM interpreter integrations. The benchmark dataset and evaluation code are publicly released to foster further research.

Esecuzione in CIRCOLO? Un Semplice Benchmark per la Sicurezza degli Interpreti di Codice nei Modelli Linguistici

Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security

Abstract

Support