Draait het in een CIRKEL? Een Eenvoudige Benchmark voor de Beveiliging van Code-interpreters in Grote Taalmodellen

Samenvatting

Naarmate grote taalmodellen (LLMs) steeds vaker native code-interpreters integreren, bieden ze krachtige mogelijkheden voor real-time uitvoering, wat hun bruikbaarheid aanzienlijk vergroot. Dergelijke integraties brengen echter potentiële systeemniveau cybersecurity-bedreigingen met zich mee, die fundamenteel verschillen van prompt-gebaseerde kwetsbaarheden. Om deze interpreter-specifieke risico's systematisch te evalueren, stellen we CIRCLE voor (Code-Interpreter Resilience Check for LLM Exploits), een eenvoudige benchmark bestaande uit 1.260 prompts die gericht zijn op het uitputten van CPU-, geheugen- en schijfbronnen. Elke risicocategorie omvat expliciet kwaadaardige ("directe") en ogenschijnlijk onschuldige ("indirecte") promptvarianten. Ons geautomatiseerde evaluatieraamwerk beoordeelt niet alleen of LLMs risicovolle code weigeren of genereren, maar voert de gegenereerde code ook uit binnen de interpreter-omgeving om de correctheid van de code, vereenvoudigingen door het LLM om de code veilig te maken, of time-outs tijdens de uitvoering te evalueren. Door 7 commercieel beschikbare modellen van OpenAI en Google te evalueren, ontdekken we significante en inconsistente kwetsbaarheden. Zo tonen evaluaties aanzienlijke verschillen zelfs binnen providers - OpenAI's o4-mini weigert risicovolle verzoeken correct in 7,1% van de gevallen, wat aanzienlijk hoger is vergeleken met GPT-4.1 op 0,5%. De resultaten benadrukken vooral dat indirecte, sociaal geconstrueerde prompts de verdediging van modellen aanzienlijk verzwakken. Dit onderstreept de dringende behoefte aan interpreter-specifieke cybersecurity-benchmarks, toegewijde mitigatietools (bijv. guardrails) en duidelijke industriestandaarden om de veilige en verantwoorde inzet van LLM-interpreterintegraties te begeleiden. De benchmarkdataset en evaluatiecode worden openbaar vrijgegeven om verder onderzoek te bevorderen.

English

As large language models (LLMs) increasingly integrate native code interpreters, they enable powerful real-time execution capabilities, substantially expanding their utility. However, such integrations introduce potential system-level cybersecurity threats, fundamentally different from prompt-based vulnerabilities. To systematically evaluate these interpreter-specific risks, we propose CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), a simple benchmark comprising 1,260 prompts targeting CPU, memory, and disk resource exhaustion. Each risk category includes explicitly malicious ("direct") and plausibly benign ("indirect") prompt variants. Our automated evaluation framework assesses not only whether LLMs refuse or generates risky code, but also executes the generated code within the interpreter environment to evaluate code correctness, simplifications made by the LLM to make the code safe, or execution timeouts. Evaluating 7 commercially available models from OpenAI and Google, we uncover significant and inconsistent vulnerabilities. For instance, evaluations show substantial disparities even within providers - OpenAI's o4-mini correctly refuses risky requests at 7.1%, notably higher rates compared to GPT-4.1 at 0.5%. Results particularly underscore that indirect, socially-engineered prompts substantially weaken model defenses. This highlights an urgent need for interpreter-specific cybersecurity benchmarks, dedicated mitigation tools (e.g., guardrails), and clear industry standards to guide safe and responsible deployment of LLM interpreter integrations. The benchmark dataset and evaluation code are publicly released to foster further research.

Draait het in een CIRKEL? Een Eenvoudige Benchmark voor de Beveiliging van Code-interpreters in Grote Taalmodellen

Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security

Samenvatting

Support