ChatPaper.aiChatPaper

AthenaBench: 사이버 위협 인텔리전스에서 LLM 평가를 위한 동적 벤치마크

AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

November 3, 2025
저자: Md Tanvirul Alam, Dipkamal Bhusal, Salman Ahmad, Nidhi Rastogi, Peter Worth
cs.AI

초록

대규모 언어 모델(LLM)은 자연어 추론에서 강력한 능력을 보여왔으나, 사이버 위협 인텔리전스(CTI) 분야로의 적용은 여전히 제한적입니다. CTI 분석은 방대한 양의 비정형 보고서를 실행 가능한 지식으로 정제하는 과정을 수반하는데, 이는 LLM이 분석가의 업무 부담을 상당히 줄일 수 있는 분야입니다. CTIBench는 여러 CTI 작업에 걸쳐 LLM을 평가하기 위한 포괄적인 벤치마크를 도입했습니다. 본 연구에서는 개선된 데이터셋 생성 파이프라인, 중복 제거, 정제된 평가 지표, 위험 완화 전략에 초점을 맞춘 새로운 작업을 포함하는 향상된 벤치마크인 AthenaBench를 개발하여 CTIBench를 확장합니다. 우리는 GPT-5 및 Gemini-2.5 Pro와 같은 최첨단 독점 모델과 LLaMA 및 Qwen 패밀리의 7개 오픈소스 모델을 포함하여 12개의 LLM을 평가합니다. 독점 LLM은 전반적으로 더 강력한 결과를 달성하지만, 위협 행위자 귀속 및 위험 완화와 같은 추론 집약적 작업에서는 성능이 기대에 미치지 못하며, 오픈소스 모델은 더욱 뒤처집니다. 이러한 결과는 현재 LLM의 추론 능력에 근본적인 한계가 있음을 보여주며, CTI 워크플로우와 자동화에 명시적으로 맞춤화된 모델의 필요성을 강조합니다.
English
Large Language Models (LLMs) have demonstrated strong capabilities in natural language reasoning, yet their application to Cyber Threat Intelligence (CTI) remains limited. CTI analysis involves distilling large volumes of unstructured reports into actionable knowledge, a process where LLMs could substantially reduce analyst workload. CTIBench introduced a comprehensive benchmark for evaluating LLMs across multiple CTI tasks. In this work, we extend CTIBench by developing AthenaBench, an enhanced benchmark that includes an improved dataset creation pipeline, duplicate removal, refined evaluation metrics, and a new task focused on risk mitigation strategies. We evaluate twelve LLMs, including state-of-the-art proprietary models such as GPT-5 and Gemini-2.5 Pro, alongside seven open-source models from the LLaMA and Qwen families. While proprietary LLMs achieve stronger results overall, their performance remains subpar on reasoning-intensive tasks, such as threat actor attribution and risk mitigation, with open-source models trailing even further behind. These findings highlight fundamental limitations in the reasoning capabilities of current LLMs and underscore the need for models explicitly tailored to CTI workflows and automation.
PDF31January 19, 2026