DFIR-Metric: Un Dataset di Benchmark per Valutare i Modelli Linguistici di Grande Scala nell'Ambiente della Digital Forensics e della Risposta agli Incidenti
DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response
May 26, 2025
Autori: Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi
cs.AI
Abstract
La Digital Forensics and Incident Response (DFIR) consiste nell'analisi di prove digitali per supportare indagini legali. I Large Language Models (LLM) offrono nuove opportunità nelle attività DFIR come l'analisi dei log e la memoria forense, ma la loro suscettibilità a errori e allucinazioni solleva preoccupazioni in contesti ad alto rischio. Nonostante il crescente interesse, manca un benchmark completo per valutare gli LLM sia nei domini teorici che pratici della DFIR. Per colmare questa lacuna, presentiamo DFIR-Metric, un benchmark composto da tre componenti: (1) Valutazione delle Conoscenze: un set di 700 domande a scelta multipla revisionate da esperti, tratte da certificazioni di settore e documentazione ufficiale; (2) Sfide Forensi Realistiche: 150 task in stile CTF che testano il ragionamento a più passi e la correlazione delle prove; e (3) Analisi Pratica: 500 casi di forensics su disco e memoria provenienti dal NIST Computer Forensics Tool Testing Program (CFTT). Abbiamo valutato 14 LLM utilizzando DFIR-Metric, analizzando sia la loro accuratezza che la coerenza tra le prove. Introduciamo inoltre una nuova metrica, il Task Understanding Score (TUS), progettata per valutare più efficacemente i modelli in scenari in cui raggiungono un'accuratezza quasi nulla. Questo benchmark offre una base rigorosa e riproducibile per far progredire l'IA nel campo della digital forensics. Tutti gli script, gli artefatti e i risultati sono disponibili sul sito del progetto all'indirizzo https://github.com/DFIR-Metric.
English
Digital Forensics and Incident Response (DFIR) involves analyzing digital
evidence to support legal investigations. Large Language Models (LLMs) offer
new opportunities in DFIR tasks such as log analysis and memory forensics, but
their susceptibility to errors and hallucinations raises concerns in
high-stakes contexts. Despite growing interest, there is no comprehensive
benchmark to evaluate LLMs across both theoretical and practical DFIR domains.
To address this gap, we present DFIR-Metric, a benchmark with three components:
(1) Knowledge Assessment: a set of 700 expert-reviewed multiple-choice
questions sourced from industry-standard certifications and official
documentation; (2) Realistic Forensic Challenges: 150 CTF-style tasks testing
multi-step reasoning and evidence correlation; and (3) Practical Analysis: 500
disk and memory forensics cases from the NIST Computer Forensics Tool Testing
Program (CFTT). We evaluated 14 LLMs using DFIR-Metric, analyzing both their
accuracy and consistency across trials. We also introduce a new metric, the
Task Understanding Score (TUS), designed to more effectively evaluate models in
scenarios where they achieve near-zero accuracy. This benchmark offers a
rigorous, reproducible foundation for advancing AI in digital forensics. All
scripts, artifacts, and results are available on the project website at
https://github.com/DFIR-Metric.