¿Funcionando en CÍRCULO? Un Benchmark Simple para la Seguridad del Intérprete de Código en LLM

Resumen

A medida que los modelos de lenguaje de gran escala (LLMs) integran cada vez más intérpretes de código nativo, habilitan capacidades de ejecución en tiempo real potentes, ampliando sustancialmente su utilidad. Sin embargo, estas integraciones introducen posibles amenazas de ciberseguridad a nivel de sistema, fundamentalmente diferentes de las vulnerabilidades basadas en prompts. Para evaluar sistemáticamente estos riesgos específicos del intérprete, proponemos CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), un benchmark simple que comprende 1,260 prompts dirigidos al agotamiento de recursos de CPU, memoria y disco. Cada categoría de riesgo incluye variantes de prompts explícitamente maliciosas ("directas") y aparentemente benignas ("indirectas"). Nuestro marco de evaluación automatizado no solo verifica si los LLMs rechazan o generan código riesgoso, sino que también ejecuta el código generado dentro del entorno del intérprete para evaluar la corrección del código, las simplificaciones realizadas por el LLM para hacerlo seguro o los tiempos de espera de ejecución. Al evaluar 7 modelos disponibles comercialmente de OpenAI y Google, descubrimos vulnerabilidades significativas e inconsistentes. Por ejemplo, las evaluaciones muestran disparidades sustanciales incluso dentro de los mismos proveedores: el o4-mini de OpenAI rechaza correctamente solicitudes riesgosas en un 7.1%, una tasa notablemente más alta en comparación con el GPT-4.1, que lo hace en un 0.5%. Los resultados destacan especialmente que los prompts indirectos, diseñados socialmente, debilitan sustancialmente las defensas del modelo. Esto subraya la necesidad urgente de benchmarks de ciberseguridad específicos para intérpretes, herramientas de mitigación dedicadas (por ejemplo, barreras de protección) y estándares claros de la industria para guiar el despliegue seguro y responsable de las integraciones de intérpretes en LLMs. El conjunto de datos del benchmark y el código de evaluación se han publicado públicamente para fomentar más investigación.

English

As large language models (LLMs) increasingly integrate native code interpreters, they enable powerful real-time execution capabilities, substantially expanding their utility. However, such integrations introduce potential system-level cybersecurity threats, fundamentally different from prompt-based vulnerabilities. To systematically evaluate these interpreter-specific risks, we propose CIRCLE (Code-Interpreter Resilience Check for LLM Exploits), a simple benchmark comprising 1,260 prompts targeting CPU, memory, and disk resource exhaustion. Each risk category includes explicitly malicious ("direct") and plausibly benign ("indirect") prompt variants. Our automated evaluation framework assesses not only whether LLMs refuse or generates risky code, but also executes the generated code within the interpreter environment to evaluate code correctness, simplifications made by the LLM to make the code safe, or execution timeouts. Evaluating 7 commercially available models from OpenAI and Google, we uncover significant and inconsistent vulnerabilities. For instance, evaluations show substantial disparities even within providers - OpenAI's o4-mini correctly refuses risky requests at 7.1%, notably higher rates compared to GPT-4.1 at 0.5%. Results particularly underscore that indirect, socially-engineered prompts substantially weaken model defenses. This highlights an urgent need for interpreter-specific cybersecurity benchmarks, dedicated mitigation tools (e.g., guardrails), and clear industry standards to guide safe and responsible deployment of LLM interpreter integrations. The benchmark dataset and evaluation code are publicly released to foster further research.

¿Funcionando en CÍRCULO? Un Benchmark Simple para la Seguridad del Intérprete de Código en LLM

Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security

Resumen

Support