AthenaBench : Un Benchmark Dynamique pour l'Évaluation des LLM dans le Renseignement sur les Cybermenaces

papers.abstract

Les grands modèles de langage (LLM) ont démontré d'importantes capacités en raisonnement en langage naturel, mais leur application au renseignement sur les cybermenaces (CTI) reste limitée. L'analyse du CTI implique de condenser de grands volumes de rapports non structurés en connaissances exploitables, un processus où les LLM pourraient réduire considérablement la charge de travail des analystes. CTIBench a introduit un benchmark complet pour évaluer les LLM sur plusieurs tâches de CTI. Dans ce travail, nous étendons CTIBench en développant AthenaBench, un benchmark amélioré qui inclut un pipeline de création de jeu de données optimisé, une suppression des doublons, des métriques d'évaluation affinées et une nouvelle tâche centrée sur les stratégies d'atténuation des risques. Nous évaluons douze LLM, incluant des modèles propriétaires de pointe tels que GPT-5 et Gemini-2.5 Pro, ainsi que sept modèles open-source des familles LLaMA et Qwen. Si les LLM propriétaires obtiennent globalement de meilleurs résultats, leurs performances restent médiocres sur les tâches nécessitant un raisonnement intensif, comme l'attribution des acteurs de menace et l'atténuation des risques, les modèles open-source affichant un retard encore plus marqué. Ces résultats mettent en lumière les limitations fondamentales des capacités de raisonnement des LLM actuels et soulignent la nécessité de modèles spécifiquement conçus pour les workflows et l'automatisation du CTI.

English

Large Language Models (LLMs) have demonstrated strong capabilities in natural language reasoning, yet their application to Cyber Threat Intelligence (CTI) remains limited. CTI analysis involves distilling large volumes of unstructured reports into actionable knowledge, a process where LLMs could substantially reduce analyst workload. CTIBench introduced a comprehensive benchmark for evaluating LLMs across multiple CTI tasks. In this work, we extend CTIBench by developing AthenaBench, an enhanced benchmark that includes an improved dataset creation pipeline, duplicate removal, refined evaluation metrics, and a new task focused on risk mitigation strategies. We evaluate twelve LLMs, including state-of-the-art proprietary models such as GPT-5 and Gemini-2.5 Pro, alongside seven open-source models from the LLaMA and Qwen families. While proprietary LLMs achieve stronger results overall, their performance remains subpar on reasoning-intensive tasks, such as threat actor attribution and risk mitigation, with open-source models trailing even further behind. These findings highlight fundamental limitations in the reasoning capabilities of current LLMs and underscore the need for models explicitly tailored to CTI workflows and automation.

AthenaBench : Un Benchmark Dynamique pour l'Évaluation des LLM dans le Renseignement sur les Cybermenaces

AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

papers.abstract

Support