CIRCLE에서 실행 중인가? LLM 코드 인터프리터 보안을 위한 간단한 벤치마크
Running in CIRCLE? A Simple Benchmark for LLM Code Interpreter Security
July 25, 2025
저자: Gabriel Chua
cs.AI
초록
대규모 언어 모델(LLMs)이 네이티브 코드 인터프리터를 점점 더 통합함에 따라, 이들은 강력한 실시간 실행 기능을 가능하게 하여 그 유용성을 크게 확장하고 있습니다. 그러나 이러한 통합은 프롬프트 기반 취약점과는 근본적으로 다른 시스템 수준의 사이버 보안 위협을 초래할 수 있습니다. 이러한 인터프리터 특정 위험을 체계적으로 평가하기 위해, 우리는 CPU, 메모리, 디스크 자원 고갈을 목표로 하는 1,260개의 프롬프트로 구성된 간단한 벤치마크인 CIRCLE(Code-Interpreter Resilience Check for LLM Exploits)를 제안합니다. 각 위험 범주에는 명백히 악의적인("직접적") 및 그럴듯하게 무해한("간접적") 프롬프트 변형이 포함됩니다. 우리의 자동화된 평가 프레임워크는 LLMs가 위험한 코드를 거부하거나 생성하는지 여부뿐만 아니라, 생성된 코드를 인터프리터 환경 내에서 실행하여 코드의 정확성, LLM이 코드를 안전하게 만들기 위해 수행한 단순화, 또는 실행 시간 초과를 평가합니다. OpenAI와 Google의 상용 모델 7개를 평가한 결과, 상당하고 일관되지 않은 취약점이 발견되었습니다. 예를 들어, 평가 결과는 공급자 내에서도 상당한 차이를 보였습니다. OpenAI의 o4-mini는 위험한 요청을 7.1%로 올바르게 거부했는데, 이는 GPT-4.1의 0.5%에 비해 현저히 높은 비율입니다. 결과는 특히 간접적이고 사회공학적인 프롬프트가 모델 방어를 상당히 약화시킨다는 점을 강조합니다. 이는 인터프리터 특정 사이버 보안 벤치마크, 전용 완화 도구(예: 가드레일), 그리고 LLM 인터프리터 통합의 안전하고 책임 있는 배포를 위한 명확한 산업 표준의 긴급한 필요성을 강조합니다. 벤치마크 데이터셋과 평가 코드는 추가 연구를 촉진하기 위해 공개되었습니다.
English
As large language models (LLMs) increasingly integrate native code
interpreters, they enable powerful real-time execution capabilities,
substantially expanding their utility. However, such integrations introduce
potential system-level cybersecurity threats, fundamentally different from
prompt-based vulnerabilities. To systematically evaluate these
interpreter-specific risks, we propose CIRCLE (Code-Interpreter Resilience
Check for LLM Exploits), a simple benchmark comprising 1,260 prompts targeting
CPU, memory, and disk resource exhaustion. Each risk category includes
explicitly malicious ("direct") and plausibly benign ("indirect") prompt
variants. Our automated evaluation framework assesses not only whether LLMs
refuse or generates risky code, but also executes the generated code within the
interpreter environment to evaluate code correctness, simplifications made by
the LLM to make the code safe, or execution timeouts. Evaluating 7 commercially
available models from OpenAI and Google, we uncover significant and
inconsistent vulnerabilities. For instance, evaluations show substantial
disparities even within providers - OpenAI's o4-mini correctly refuses risky
requests at 7.1%, notably higher rates compared to GPT-4.1 at 0.5%. Results
particularly underscore that indirect, socially-engineered prompts
substantially weaken model defenses. This highlights an urgent need for
interpreter-specific cybersecurity benchmarks, dedicated mitigation tools
(e.g., guardrails), and clear industry standards to guide safe and responsible
deployment of LLM interpreter integrations. The benchmark dataset and
evaluation code are publicly released to foster further research.