Läuft es im Kreis? Ein einfacher Benchmark für die Sicherheit von Code-Interpretern in großen Sprachmodellen
Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security
July 25, 2025
papers.authors: Gabriel Chua
cs.AI
papers.abstract
Da große Sprachmodelle (LLMs) zunehmend native Code-Interpreter integrieren, ermöglichen sie leistungsstarke Echtzeit-Ausführungsfunktionen, was ihre Nutzbarkeit erheblich erweitert. Solche Integrationen führen jedoch potenzielle systemweite Cybersicherheitsbedrohungen ein, die sich grundlegend von prompt-basierten Schwachstellen unterscheiden. Um diese interpreter-spezifischen Risiken systematisch zu bewerten, schlagen wir CIRCLE (Code-Interpreter Resilience Check for LLM Exploits) vor, einen einfachen Benchmark, der 1.260 Prompts umfasst, die auf CPU-, Speicher- und Festplattenressourcenerschöpfung abzielen. Jede Risikokategorie enthält explizit bösartige ("direkte") und plausibel harmlose ("indirekte") Prompt-Varianten. Unser automatisiertes Bewertungsframework prüft nicht nur, ob LLMs riskanten Code ablehnen oder generieren, sondern führt den generierten Code auch innerhalb der Interpreter-Umgebung aus, um die Codekorrektheit, Vereinfachungen durch das LLM zur Sicherstellung der Codesicherheit oder Ausführungszeitüberschreitungen zu bewerten. Bei der Bewertung von 7 kommerziell verfügbaren Modellen von OpenAI und Google decken wir erhebliche und inkonsistente Schwachstellen auf. Beispielsweise zeigen die Bewertungen erhebliche Diskrepanzen selbst innerhalb von Anbietern – OpenAIs o4-mini lehnt riskante Anfragen zu 7,1 % korrekt ab, was deutlich höher ist im Vergleich zu GPT-4.1 mit 0,5 %. Die Ergebnisse unterstreichen insbesondere, dass indirekte, sozial manipulierte Prompts die Modellabwehr erheblich schwächen. Dies verdeutlicht den dringenden Bedarf an interpreter-spezifischen Cybersicherheits-Benchmarks, spezialisierten Absicherungstools (z. B. Guardrails) und klaren Industriestandards, um die sichere und verantwortungsvolle Bereitstellung von LLM-Interpreter-Integrationen zu leiten. Der Benchmark-Datensatz und der Bewertungscode werden öffentlich zugänglich gemacht, um weitere Forschungen zu fördern.
English
As large language models (LLMs) increasingly integrate native code
interpreters, they enable powerful real-time execution capabilities,
substantially expanding their utility. However, such integrations introduce
potential system-level cybersecurity threats, fundamentally different from
prompt-based vulnerabilities. To systematically evaluate these
interpreter-specific risks, we propose CIRCLE (Code-Interpreter Resilience
Check for LLM Exploits), a simple benchmark comprising 1,260 prompts targeting
CPU, memory, and disk resource exhaustion. Each risk category includes
explicitly malicious ("direct") and plausibly benign ("indirect") prompt
variants. Our automated evaluation framework assesses not only whether LLMs
refuse or generates risky code, but also executes the generated code within the
interpreter environment to evaluate code correctness, simplifications made by
the LLM to make the code safe, or execution timeouts. Evaluating 7 commercially
available models from OpenAI and Google, we uncover significant and
inconsistent vulnerabilities. For instance, evaluations show substantial
disparities even within providers - OpenAI's o4-mini correctly refuses risky
requests at 7.1%, notably higher rates compared to GPT-4.1 at 0.5%. Results
particularly underscore that indirect, socially-engineered prompts
substantially weaken model defenses. This highlights an urgent need for
interpreter-specific cybersecurity benchmarks, dedicated mitigation tools
(e.g., guardrails), and clear industry standards to guide safe and responsible
deployment of LLM interpreter integrations. The benchmark dataset and
evaluation code are publicly released to foster further research.