Executando em CÍRCULO? Um Benchmark Simples para a Segurança de Interpretadores de Código em LLMs
Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security
July 25, 2025
Autores: Gabriel Chua
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala (LLMs) integram cada vez mais interpretadores de código nativo, eles habilitam capacidades poderosas de execução em tempo real, expandindo substancialmente sua utilidade. No entanto, tais integrações introduzem potenciais ameaças cibernéticas em nível de sistema, fundamentalmente diferentes das vulnerabilidades baseadas em prompts. Para avaliar sistematicamente esses riscos específicos de interpretadores, propomos o CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), um benchmark simples composto por 1.260 prompts direcionados à exaustão de recursos de CPU, memória e disco. Cada categoria de risco inclui variantes de prompts explicitamente maliciosos ("diretos") e plausivelmente benignos ("indiretos"). Nosso framework de avaliação automatizada verifica não apenas se os LLMs recusam ou geram código arriscado, mas também executa o código gerado no ambiente do interpretador para avaliar a correção do código, simplificações feitas pelo LLM para tornar o código seguro ou tempos limite de execução. Avaliando 7 modelos comercialmente disponíveis da OpenAI e Google, descobrimos vulnerabilidades significativas e inconsistentes. Por exemplo, as avaliações mostram disparidades substanciais mesmo dentro dos provedores - o o4-mini da OpenAI recusa corretamente solicitações arriscadas em 7,1%, taxas notavelmente mais altas em comparação com o GPT-4.1 em 0,5%. Os resultados destacam particularmente que prompts indiretos, engenhosamente projetados, enfraquecem substancialmente as defesas do modelo. Isso evidencia a necessidade urgente de benchmarks cibernéticos específicos para interpretadores, ferramentas dedicadas de mitigação (por exemplo, guardrails) e padrões claros da indústria para orientar a implantação segura e responsável de integrações de interpretadores em LLMs. O conjunto de dados do benchmark e o código de avaliação são disponibilizados publicamente para fomentar pesquisas adicionais.
English
As large language models (LLMs) increasingly integrate native code
interpreters, they enable powerful real-time execution capabilities,
substantially expanding their utility. However, such integrations introduce
potential system-level cybersecurity threats, fundamentally different from
prompt-based vulnerabilities. To systematically evaluate these
interpreter-specific risks, we propose CIRCLE (Code-Interpreter Resilience
Check for LLM Exploits), a simple benchmark comprising 1,260 prompts targeting
CPU, memory, and disk resource exhaustion. Each risk category includes
explicitly malicious ("direct") and plausibly benign ("indirect") prompt
variants. Our automated evaluation framework assesses not only whether LLMs
refuse or generates risky code, but also executes the generated code within the
interpreter environment to evaluate code correctness, simplifications made by
the LLM to make the code safe, or execution timeouts. Evaluating 7 commercially
available models from OpenAI and Google, we uncover significant and
inconsistent vulnerabilities. For instance, evaluations show substantial
disparities even within providers - OpenAI's o4-mini correctly refuses risky
requests at 7.1%, notably higher rates compared to GPT-4.1 at 0.5%. Results
particularly underscore that indirect, socially-engineered prompts
substantially weaken model defenses. This highlights an urgent need for
interpreter-specific cybersecurity benchmarks, dedicated mitigation tools
(e.g., guardrails), and clear industry standards to guide safe and responsible
deployment of LLM interpreter integrations. The benchmark dataset and
evaluation code are publicly released to foster further research.