Работает по кругу? Простой тест на безопасность интерпретатора кода в языковых моделях

Аннотация

По мере того как крупные языковые модели (LLM) всё чаще интегрируют встроенные интерпретаторы кода, они получают мощные возможности для выполнения задач в реальном времени, значительно расширяя свою полезность. Однако такие интеграции влекут за собой потенциальные угрозы на уровне системы, принципиально отличающиеся от уязвимостей, связанных с подсказками (prompts). Для систематической оценки этих специфических рисков, связанных с интерпретаторами, мы предлагаем CIRCLE (Code-Interpreter Resilience Check for LLM Exploits) — простой бенчмарк, включающий 1 260 подсказок, направленных на исчерпание ресурсов процессора, памяти и диска. Каждая категория рисков включает явно вредоносные («прямые») и внешне безобидные («косвенные») варианты подсказок. Наша автоматизированная система оценки проверяет не только то, отказываются ли LLM выполнять или генерируют ли они рискованный код, но и выполняет сгенерированный код в среде интерпретатора, чтобы оценить корректность кода, упрощения, внесённые LLM для обеспечения безопасности, или превышение времени выполнения. Оценив 7 коммерчески доступных моделей от OpenAI и Google, мы обнаружили значительные и непоследовательные уязвимости. Например, результаты показывают существенные различия даже внутри одного поставщика — модель OpenAI o4-mini корректно отклоняет рискованные запросы в 7,1% случаев, что значительно выше по сравнению с GPT-4.1, где этот показатель составляет 0,5%. Результаты особенно подчёркивают, что косвенные, социально-инженерные подсказки существенно ослабляют защиту моделей. Это указывает на острую необходимость в специализированных бенчмарках для кибербезопасности интерпретаторов, инструментах для смягчения рисков (например, защитных механизмах) и чётких отраслевых стандартах, которые обеспечат безопасное и ответственное внедрение интеграций интерпретаторов в LLM. Набор данных бенчмарка и код оценки публично доступны для стимулирования дальнейших исследований.

English

As large language models (LLMs) increasingly integrate native code interpreters, they enable powerful real-time execution capabilities, substantially expanding their utility. However, such integrations introduce potential system-level cybersecurity threats, fundamentally different from prompt-based vulnerabilities. To systematically evaluate these interpreter-specific risks, we propose CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), a simple benchmark comprising 1,260 prompts targeting CPU, memory, and disk resource exhaustion. Each risk category includes explicitly malicious ("direct") and plausibly benign ("indirect") prompt variants. Our automated evaluation framework assesses not only whether LLMs refuse or generates risky code, but also executes the generated code within the interpreter environment to evaluate code correctness, simplifications made by the LLM to make the code safe, or execution timeouts. Evaluating 7 commercially available models from OpenAI and Google, we uncover significant and inconsistent vulnerabilities. For instance, evaluations show substantial disparities even within providers - OpenAI's o4-mini correctly refuses risky requests at 7.1%, notably higher rates compared to GPT-4.1 at 0.5%. Results particularly underscore that indirect, socially-engineered prompts substantially weaken model defenses. This highlights an urgent need for interpreter-specific cybersecurity benchmarks, dedicated mitigation tools (e.g., guardrails), and clear industry standards to guide safe and responsible deployment of LLM interpreter integrations. The benchmark dataset and evaluation code are publicly released to foster further research.

Работает по кругу? Простой тест на безопасность интерпретатора кода в языковых моделях

Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security

Аннотация

Support