ChatPaper.aiChatPaper

DFIR-Metric: Een benchmarkdataset voor het evalueren van grote taalmodellen in digitaal forensisch onderzoek en incidentrespons

DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response

May 26, 2025
Auteurs: Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi
cs.AI

Samenvatting

Digital Forensics en Incident Response (DFIR) omvat het analyseren van digitaal bewijsmateriaal om juridische onderzoeken te ondersteunen. Grote Taalmodellen (LLMs) bieden nieuwe mogelijkheden voor DFIR-taken zoals loganalyse en geheugenforensiek, maar hun gevoeligheid voor fouten en hallucinaties roept zorgen op in hoogrisicocontexten. Ondanks de groeiende interesse is er geen uitgebreide benchmark om LLMs te evalueren in zowel theoretische als praktische DFIR-domeinen. Om deze leemte te vullen, presenteren wij DFIR-Metric, een benchmark met drie componenten: (1) Kennisbeoordeling: een set van 700 meerkeuzevragen die door experts zijn beoordeeld en afkomstig zijn uit industrie-standaardcertificeringen en officiële documentatie; (2) Realistische Forensische Uitdagingen: 150 CTF-stijl taken die multi-staps redeneren en bewijscorrelatie testen; en (3) Praktische Analyse: 500 schijf- en geheugenforensiek gevallen uit het NIST Computer Forensics Tool Testing Program (CFTT). We hebben 14 LLMs geëvalueerd met DFIR-Metric, waarbij zowel hun nauwkeurigheid als consistentie over meerdere trials is geanalyseerd. We introduceren ook een nieuwe metriek, de Task Understanding Score (TUS), ontworpen om modellen effectiever te evalueren in scenario's waar ze bijna nul nauwkeurigheid behalen. Deze benchmark biedt een rigoureuze, reproduceerbare basis voor het bevorderen van AI in digitale forensiek. Alle scripts, artefacten en resultaten zijn beschikbaar op de projectwebsite op https://github.com/DFIR-Metric.
English
Digital Forensics and Incident Response (DFIR) involves analyzing digital evidence to support legal investigations. Large Language Models (LLMs) offer new opportunities in DFIR tasks such as log analysis and memory forensics, but their susceptibility to errors and hallucinations raises concerns in high-stakes contexts. Despite growing interest, there is no comprehensive benchmark to evaluate LLMs across both theoretical and practical DFIR domains. To address this gap, we present DFIR-Metric, a benchmark with three components: (1) Knowledge Assessment: a set of 700 expert-reviewed multiple-choice questions sourced from industry-standard certifications and official documentation; (2) Realistic Forensic Challenges: 150 CTF-style tasks testing multi-step reasoning and evidence correlation; and (3) Practical Analysis: 500 disk and memory forensics cases from the NIST Computer Forensics Tool Testing Program (CFTT). We evaluated 14 LLMs using DFIR-Metric, analyzing both their accuracy and consistency across trials. We also introduce a new metric, the Task Understanding Score (TUS), designed to more effectively evaluate models in scenarios where they achieve near-zero accuracy. This benchmark offers a rigorous, reproducible foundation for advancing AI in digital forensics. All scripts, artifacts, and results are available on the project website at https://github.com/DFIR-Metric.
PDF32May 28, 2025