AthenaBench: Динамический бенчмарк для оценки больших языковых моделей в сфере разведки киберугроз
AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
November 3, 2025
Авторы: Md Tanvirul Alam, Dipkamal Bhusal, Salman Ahmad, Nidhi Rastogi, Peter Worth
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали высокие способности в области обработки естественного языка, однако их применение в сфере киберугроз (CTI) остается ограниченным. Анализ CTI предполагает преобразование больших объемов неструктурированных отчетов в практические знания — процесс, в котором LLM могут существенно сократить нагрузку на аналитиков. Бенчмарк CTIBench представил комплексную систему для оценки LLM по множеству задач CTI. В данной работе мы расширяем CTIBench, разрабатывая AthenaBench — усовершенствованный бенчмарк, который включает улучшенный конвейер создания наборов данных, удаление дубликатов, уточненные метрики оценки и новую задачу, сфокусированную на стратегиях снижения рисков. Мы оцениваем двенадцать LLM, включая передовые проприетарные модели, такие как GPT-5 и Gemini-2.5 Pro, а также семь моделей с открытым исходным кодом из семейств LLaMA и Qwen. Хотя проприетарные LLM в целом демонстрируют более сильные результаты, их производительность остается неудовлетворительной в задачах, требующих интенсивных рассуждений, таких как атрибуция угроз и снижение рисков, при этом модели с открытым исходным кодом отстают еще значительнее. Эти результаты указывают на фундаментальные ограничения в способностях к рассуждению у современных LLM и подчеркивают необходимость создания моделей, специально адаптированных для рабочих процессов и автоматизации CTI.
English
Large Language Models (LLMs) have demonstrated strong capabilities in natural
language reasoning, yet their application to Cyber Threat Intelligence (CTI)
remains limited. CTI analysis involves distilling large volumes of unstructured
reports into actionable knowledge, a process where LLMs could substantially
reduce analyst workload. CTIBench introduced a comprehensive benchmark for
evaluating LLMs across multiple CTI tasks. In this work, we extend CTIBench by
developing AthenaBench, an enhanced benchmark that includes an improved dataset
creation pipeline, duplicate removal, refined evaluation metrics, and a new
task focused on risk mitigation strategies. We evaluate twelve LLMs, including
state-of-the-art proprietary models such as GPT-5 and Gemini-2.5 Pro, alongside
seven open-source models from the LLaMA and Qwen families. While proprietary
LLMs achieve stronger results overall, their performance remains subpar on
reasoning-intensive tasks, such as threat actor attribution and risk
mitigation, with open-source models trailing even further behind. These
findings highlight fundamental limitations in the reasoning capabilities of
current LLMs and underscore the need for models explicitly tailored to CTI
workflows and automation.