Fonctionner en CERCLE ? Un benchmark simple pour la sécurité des interpréteurs de code dans les LLM
Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security
July 25, 2025
papers.authors: Gabriel Chua
cs.AI
papers.abstract
Alors que les grands modèles de langage (LLM) intègrent de plus en plus d'interpréteurs de code natifs, ils permettent des capacités d'exécution en temps réel puissantes, élargissant ainsi considérablement leur utilité. Cependant, de telles intégrations introduisent des menaces potentielles de cybersécurité au niveau système, fondamentalement différentes des vulnérabilités basées sur les prompts. Pour évaluer systématiquement ces risques spécifiques aux interpréteurs, nous proposons CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), un benchmark simple comprenant 1 260 prompts ciblant l'épuisement des ressources CPU, mémoire et disque. Chaque catégorie de risque inclut des variantes de prompts explicitement malveillantes ("directes") et plausiblement bénignes ("indirectes"). Notre cadre d'évaluation automatisé vérifie non seulement si les LLM refusent ou génèrent du code risqué, mais exécute également le code généré dans l'environnement de l'interpréteur pour évaluer la correction du code, les simplifications apportées par le LLM pour rendre le code sûr, ou les délais d'exécution. En évaluant 7 modèles commercialement disponibles d'OpenAI et de Google, nous révélons des vulnérabilités significatives et incohérentes. Par exemple, les évaluations montrent des disparités substantielles même au sein des fournisseurs - le modèle o4-mini d'OpenAI refuse correctement les requêtes risquées à 7,1 %, un taux notablement plus élevé comparé à GPT-4.1 à 0,5 %. Les résultats soulignent particulièrement que les prompts indirects, conçus par ingénierie sociale, affaiblissent considérablement les défenses des modèles. Cela met en évidence un besoin urgent de benchmarks de cybersécurité spécifiques aux interpréteurs, d'outils de mitigation dédiés (par exemple, des garde-fous), et de normes industrielles claires pour guider le déploiement sûr et responsable des intégrations d'interpréteurs dans les LLM. Le jeu de données de benchmark et le code d'évaluation sont publiés publiquement pour encourager des recherches supplémentaires.
English
As large language models (LLMs) increasingly integrate native code
interpreters, they enable powerful real-time execution capabilities,
substantially expanding their utility. However, such integrations introduce
potential system-level cybersecurity threats, fundamentally different from
prompt-based vulnerabilities. To systematically evaluate these
interpreter-specific risks, we propose CIRCLE (Code-Interpreter Resilience
Check for LLM Exploits), a simple benchmark comprising 1,260 prompts targeting
CPU, memory, and disk resource exhaustion. Each risk category includes
explicitly malicious ("direct") and plausibly benign ("indirect") prompt
variants. Our automated evaluation framework assesses not only whether LLMs
refuse or generates risky code, but also executes the generated code within the
interpreter environment to evaluate code correctness, simplifications made by
the LLM to make the code safe, or execution timeouts. Evaluating 7 commercially
available models from OpenAI and Google, we uncover significant and
inconsistent vulnerabilities. For instance, evaluations show substantial
disparities even within providers - OpenAI's o4-mini correctly refuses risky
requests at 7.1%, notably higher rates compared to GPT-4.1 at 0.5%. Results
particularly underscore that indirect, socially-engineered prompts
substantially weaken model defenses. This highlights an urgent need for
interpreter-specific cybersecurity benchmarks, dedicated mitigation tools
(e.g., guardrails), and clear industry standards to guide safe and responsible
deployment of LLM interpreter integrations. The benchmark dataset and
evaluation code are publicly released to foster further research.