AthenaBench : Un Benchmark Dynamique pour l'Évaluation des LLM dans le Renseignement sur les Cybermenaces
AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence
November 3, 2025
papers.authors: Md Tanvirul Alam, Dipkamal Bhusal, Salman Ahmad, Nidhi Rastogi, Peter Worth
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont démontré d'importantes capacités en raisonnement en langage naturel, mais leur application au renseignement sur les cybermenaces (CTI) reste limitée. L'analyse du CTI implique de condenser de grands volumes de rapports non structurés en connaissances exploitables, un processus où les LLM pourraient réduire considérablement la charge de travail des analystes. CTIBench a introduit un benchmark complet pour évaluer les LLM sur plusieurs tâches de CTI. Dans ce travail, nous étendons CTIBench en développant AthenaBench, un benchmark amélioré qui inclut un pipeline de création de jeu de données optimisé, une suppression des doublons, des métriques d'évaluation affinées et une nouvelle tâche centrée sur les stratégies d'atténuation des risques. Nous évaluons douze LLM, incluant des modèles propriétaires de pointe tels que GPT-5 et Gemini-2.5 Pro, ainsi que sept modèles open-source des familles LLaMA et Qwen. Si les LLM propriétaires obtiennent globalement de meilleurs résultats, leurs performances restent médiocres sur les tâches nécessitant un raisonnement intensif, comme l'attribution des acteurs de menace et l'atténuation des risques, les modèles open-source affichant un retard encore plus marqué. Ces résultats mettent en lumière les limitations fondamentales des capacités de raisonnement des LLM actuels et soulignent la nécessité de modèles spécifiquement conçus pour les workflows et l'automatisation du CTI.
English
Large Language Models (LLMs) have demonstrated strong capabilities in natural
language reasoning, yet their application to Cyber Threat Intelligence (CTI)
remains limited. CTI analysis involves distilling large volumes of unstructured
reports into actionable knowledge, a process where LLMs could substantially
reduce analyst workload. CTIBench introduced a comprehensive benchmark for
evaluating LLMs across multiple CTI tasks. In this work, we extend CTIBench by
developing AthenaBench, an enhanced benchmark that includes an improved dataset
creation pipeline, duplicate removal, refined evaluation metrics, and a new
task focused on risk mitigation strategies. We evaluate twelve LLMs, including
state-of-the-art proprietary models such as GPT-5 and Gemini-2.5 Pro, alongside
seven open-source models from the LLaMA and Qwen families. While proprietary
LLMs achieve stronger results overall, their performance remains subpar on
reasoning-intensive tasks, such as threat actor attribution and risk
mitigation, with open-source models trailing even further behind. These
findings highlight fundamental limitations in the reasoning capabilities of
current LLMs and underscore the need for models explicitly tailored to CTI
workflows and automation.