AthenaBench: Un Punto de Referencia Dinámico para Evaluar Modelos de Lenguaje Grandes en Inteligencia sobre Amenazas Cibernéticas
AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
November 3, 2025
Autores: Md Tanvirul Alam, Dipkamal Bhusal, Salman Ahmad, Nidhi Rastogi, Peter Worth
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLM) han demostrado sólidas capacidades en el razonamiento de lenguaje natural, sin embargo, su aplicación a la Inteligencia sobre Amenazas Cibernéticas (CTI) sigue siendo limitada. El análisis de CTI implica destilar grandes volúmenes de informes no estructurados en conocimiento accionable, un proceso en el que los LLM podrían reducir sustancialmente la carga de trabajo de los analistas. CTIBench introdujo un benchmark integral para evaluar LLM en múltiples tareas de CTI. En este trabajo, extendemos CTIBench mediante el desarrollo de AthenaBench, un benchmark mejorado que incluye una canalización mejorada para la creación de conjuntos de datos, eliminación de duplicados, métricas de evaluación refinadas y una nueva tarea centrada en estrategias de mitigación de riesgos. Evaluamos doce LLM, incluyendo modelos propietarios de última generación como GPT-5 y Gemini-2.5 Pro, junto con siete modelos de código abierto de las familias LLaMA y Qwen. Si bien los LLM propietarios logran resultados más sólidos en general, su rendimiento sigue siendo deficiente en tareas intensivas en razonamiento, como la atribución de actores de amenazas y la mitigación de riesgos, con los modelos de código abierto quedando aún más rezagados. Estos hallazgos resaltan limitaciones fundamentales en las capacidades de razonamiento de los LLM actuales y subrayan la necesidad de modelos explícitamente adaptados a los flujos de trabajo y la automatización de CTI.
English
Large Language Models (LLMs) have demonstrated strong capabilities in natural
language reasoning, yet their application to Cyber Threat Intelligence (CTI)
remains limited. CTI analysis involves distilling large volumes of unstructured
reports into actionable knowledge, a process where LLMs could substantially
reduce analyst workload. CTIBench introduced a comprehensive benchmark for
evaluating LLMs across multiple CTI tasks. In this work, we extend CTIBench by
developing AthenaBench, an enhanced benchmark that includes an improved dataset
creation pipeline, duplicate removal, refined evaluation metrics, and a new
task focused on risk mitigation strategies. We evaluate twelve LLMs, including
state-of-the-art proprietary models such as GPT-5 and Gemini-2.5 Pro, alongside
seven open-source models from the LLaMA and Qwen families. While proprietary
LLMs achieve stronger results overall, their performance remains subpar on
reasoning-intensive tasks, such as threat actor attribution and risk
mitigation, with open-source models trailing even further behind. These
findings highlight fundamental limitations in the reasoning capabilities of
current LLMs and underscore the need for models explicitly tailored to CTI
workflows and automation.