DFIR-Metric : Un ensemble de données de référence pour évaluer les modèles de langage de grande taille dans le domaine de la criminalistique numérique et de la réponse aux incidents
DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response
May 26, 2025
Auteurs: Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi
cs.AI
Résumé
La Criminalistique Numérique et la Gestion des Incidents (DFIR) consiste à analyser des preuves numériques pour soutenir les enquêtes judiciaires. Les Modèles de Langage à Grande Échelle (LLMs) offrent de nouvelles opportunités dans les tâches de DFIR telles que l'analyse de journaux et la criminalistique de la mémoire, mais leur susceptibilité aux erreurs et aux hallucinations soulève des inquiétudes dans des contextes à enjeux élevés. Malgré un intérêt croissant, il n'existe aucun benchmark complet pour évaluer les LLMs à la fois dans les domaines théoriques et pratiques de la DFIR. Pour combler cette lacune, nous présentons DFIR-Metric, un benchmark composé de trois éléments : (1) Évaluation des Connaissances : un ensemble de 700 questions à choix multiples revues par des experts, issues de certifications industrielles standard et de documentation officielle ; (2) Défis Forensiques Réalistes : 150 tâches de style Capture The Flag (CTF) testant le raisonnement en plusieurs étapes et la corrélation des preuves ; et (3) Analyse Pratique : 500 cas de criminalistique de disque et de mémoire provenant du programme NIST Computer Forensics Tool Testing (CFTT). Nous avons évalué 14 LLMs en utilisant DFIR-Metric, en analysant à la fois leur précision et leur cohérence à travers les essais. Nous introduisons également une nouvelle métrique, le Score de Compréhension des Tâches (TUS), conçu pour évaluer plus efficacement les modèles dans des scénarios où ils atteignent une précision proche de zéro. Ce benchmark offre une base rigoureuse et reproductible pour faire progresser l'IA dans la criminalistique numérique. Tous les scripts, artefacts et résultats sont disponibles sur le site du projet à l'adresse https://github.com/DFIR-Metric.
English
Digital Forensics and Incident Response (DFIR) involves analyzing digital
evidence to support legal investigations. Large Language Models (LLMs) offer
new opportunities in DFIR tasks such as log analysis and memory forensics, but
their susceptibility to errors and hallucinations raises concerns in
high-stakes contexts. Despite growing interest, there is no comprehensive
benchmark to evaluate LLMs across both theoretical and practical DFIR domains.
To address this gap, we present DFIR-Metric, a benchmark with three components:
(1) Knowledge Assessment: a set of 700 expert-reviewed multiple-choice
questions sourced from industry-standard certifications and official
documentation; (2) Realistic Forensic Challenges: 150 CTF-style tasks testing
multi-step reasoning and evidence correlation; and (3) Practical Analysis: 500
disk and memory forensics cases from the NIST Computer Forensics Tool Testing
Program (CFTT). We evaluated 14 LLMs using DFIR-Metric, analyzing both their
accuracy and consistency across trials. We also introduce a new metric, the
Task Understanding Score (TUS), designed to more effectively evaluate models in
scenarios where they achieve near-zero accuracy. This benchmark offers a
rigorous, reproducible foundation for advancing AI in digital forensics. All
scripts, artifacts, and results are available on the project website at
https://github.com/DFIR-Metric.Summary
AI-Generated Summary