AthenaBench: Un Punto de Referencia Dinámico para Evaluar Modelos de Lenguaje Grandes en Inteligencia sobre Amenazas Cibernéticas

Resumen

Los Modelos de Lenguaje Grandes (LLM) han demostrado sólidas capacidades en el razonamiento de lenguaje natural, sin embargo, su aplicación a la Inteligencia sobre Amenazas Cibernéticas (CTI) sigue siendo limitada. El análisis de CTI implica destilar grandes volúmenes de informes no estructurados en conocimiento accionable, un proceso en el que los LLM podrían reducir sustancialmente la carga de trabajo de los analistas. CTIBench introdujo un benchmark integral para evaluar LLM en múltiples tareas de CTI. En este trabajo, extendemos CTIBench mediante el desarrollo de AthenaBench, un benchmark mejorado que incluye una canalización mejorada para la creación de conjuntos de datos, eliminación de duplicados, métricas de evaluación refinadas y una nueva tarea centrada en estrategias de mitigación de riesgos. Evaluamos doce LLM, incluyendo modelos propietarios de última generación como GPT-5 y Gemini-2.5 Pro, junto con siete modelos de código abierto de las familias LLaMA y Qwen. Si bien los LLM propietarios logran resultados más sólidos en general, su rendimiento sigue siendo deficiente en tareas intensivas en razonamiento, como la atribución de actores de amenazas y la mitigación de riesgos, con los modelos de código abierto quedando aún más rezagados. Estos hallazgos resaltan limitaciones fundamentales en las capacidades de razonamiento de los LLM actuales y subrayan la necesidad de modelos explícitamente adaptados a los flujos de trabajo y la automatización de CTI.

English

Large Language Models (LLMs) have demonstrated strong capabilities in natural language reasoning, yet their application to Cyber Threat Intelligence (CTI) remains limited. CTI analysis involves distilling large volumes of unstructured reports into actionable knowledge, a process where LLMs could substantially reduce analyst workload. CTIBench introduced a comprehensive benchmark for evaluating LLMs across multiple CTI tasks. In this work, we extend CTIBench by developing AthenaBench, an enhanced benchmark that includes an improved dataset creation pipeline, duplicate removal, refined evaluation metrics, and a new task focused on risk mitigation strategies. We evaluate twelve LLMs, including state-of-the-art proprietary models such as GPT-5 and Gemini-2.5 Pro, alongside seven open-source models from the LLaMA and Qwen families. While proprietary LLMs achieve stronger results overall, their performance remains subpar on reasoning-intensive tasks, such as threat actor attribution and risk mitigation, with open-source models trailing even further behind. These findings highlight fundamental limitations in the reasoning capabilities of current LLMs and underscore the need for models explicitly tailored to CTI workflows and automation.

AthenaBench: Un Punto de Referencia Dinámico para Evaluar Modelos de Lenguaje Grandes en Inteligencia sobre Amenazas Cibernéticas

AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

Resumen

Support