AthenaBench: Um Benchmark Dinâmico para Avaliação de LLMs em Inteligência de Ameaças Cibernéticas
AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
November 3, 2025
Autores: Md Tanvirul Alam, Dipkamal Bhusal, Salman Ahmad, Nidhi Rastogi, Peter Worth
cs.AI
Resumo
Os Grandes Modelos de Linguagem (LLMs) demonstraram fortes capacidades no raciocínio em linguagem natural, mas a sua aplicação na Ciberinteligência de Ameaças (CTI) permanece limitada. A análise de CTI envolve destilar grandes volumes de relatórios não estruturados em conhecimento acionável, um processo no qual os LLMs poderiam reduzir substancialmente a carga de trabalho dos analistas. O CTIBench introduziu um benchmark abrangente para avaliar LLMs em múltiplas tarefas de CTI. Neste trabalho, estendemos o CTIBench desenvolvendo o AthenaBench, um benchmark aprimorado que inclui um *pipeline* de criação de conjunto de dados melhorado, remoção de duplicatas, métricas de avaliação refinadas e uma nova tarefa focada em estratégias de mitigação de riscos. Avaliamos doze LLMs, incluindo modelos proprietários de última geração, como o GPT-5 e o Gemini-2.5 Pro, juntamente com sete modelos de código aberto das famílias LLaMA e Qwen. Embora os LLMs proprietários obtenham resultados mais fortes no geral, o seu desempenho permanece abaixo do ideal em tarefas intensivas em raciocínio, como a atribuição de agentes de ameaças e a mitigação de riscos, com os modelos de código aberto ficando ainda mais atrás. Estas descobertas destacam limitações fundamentais nas capacidades de raciocínio dos LLMs atuais e sublinham a necessidade de modelos explicitamente adaptados aos fluxos de trabalho e automação de CTI.
English
Large Language Models (LLMs) have demonstrated strong capabilities in natural
language reasoning, yet their application to Cyber Threat Intelligence (CTI)
remains limited. CTI analysis involves distilling large volumes of unstructured
reports into actionable knowledge, a process where LLMs could substantially
reduce analyst workload. CTIBench introduced a comprehensive benchmark for
evaluating LLMs across multiple CTI tasks. In this work, we extend CTIBench by
developing AthenaBench, an enhanced benchmark that includes an improved dataset
creation pipeline, duplicate removal, refined evaluation metrics, and a new
task focused on risk mitigation strategies. We evaluate twelve LLMs, including
state-of-the-art proprietary models such as GPT-5 and Gemini-2.5 Pro, alongside
seven open-source models from the LLaMA and Qwen families. While proprietary
LLMs achieve stronger results overall, their performance remains subpar on
reasoning-intensive tasks, such as threat actor attribution and risk
mitigation, with open-source models trailing even further behind. These
findings highlight fundamental limitations in the reasoning capabilities of
current LLMs and underscore the need for models explicitly tailored to CTI
workflows and automation.