ChatPaper.aiChatPaper

DFIR-Metric: Ein Benchmark-Datensatz zur Bewertung großer Sprachmodelle in der digitalen Forensik und Incident Response

DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response

May 26, 2025
Autoren: Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi
cs.AI

Zusammenfassung

Digitale Forensik und Incident Response (DFIR) umfasst die Analyse digitaler Beweise zur Unterstützung rechtlicher Untersuchungen. Große Sprachmodelle (LLMs) bieten neue Möglichkeiten in DFIR-Aufgaben wie der Protokollanalyse und der Speicherforensik, doch ihre Anfälligkeit für Fehler und Halluzinationen wirft Bedenken in hochsensiblen Kontexten auf. Trotz des wachsenden Interesses gibt es keinen umfassenden Benchmark, um LLMs sowohl in theoretischen als auch praktischen DFIR-Bereichen zu bewerten. Um diese Lücke zu schließen, stellen wir DFIR-Metric vor, einen Benchmark mit drei Komponenten: (1) Wissensbewertung: eine Sammlung von 700 von Experten geprüften Multiple-Choice-Fragen, die aus branchenüblichen Zertifizierungen und offiziellen Dokumentationen stammen; (2) Realistische forensische Herausforderungen: 150 CTF-ähnliche Aufgaben, die mehrstufiges Denken und Beweiskorrelation testen; und (3) Praktische Analyse: 500 Fälle aus dem NIST Computer Forensics Tool Testing Program (CFTT) zur Festplatten- und Speicherforensik. Wir haben 14 LLMs mit DFIR-Metric bewertet und sowohl ihre Genauigkeit als auch ihre Konsistenz über mehrere Durchläufe hinweg analysiert. Zudem führen wir eine neue Metrik ein, den Task Understanding Score (TUS), der entwickelt wurde, um Modelle in Szenarien, in denen sie eine nahezu null Genauigkeit erreichen, effektiver zu bewerten. Dieser Benchmark bietet eine rigorose, reproduzierbare Grundlage für die Weiterentwicklung von KI in der digitalen Forensik. Alle Skripte, Artefakte und Ergebnisse sind auf der Projektwebsite unter https://github.com/DFIR-Metric verfügbar.
English
Digital Forensics and Incident Response (DFIR) involves analyzing digital evidence to support legal investigations. Large Language Models (LLMs) offer new opportunities in DFIR tasks such as log analysis and memory forensics, but their susceptibility to errors and hallucinations raises concerns in high-stakes contexts. Despite growing interest, there is no comprehensive benchmark to evaluate LLMs across both theoretical and practical DFIR domains. To address this gap, we present DFIR-Metric, a benchmark with three components: (1) Knowledge Assessment: a set of 700 expert-reviewed multiple-choice questions sourced from industry-standard certifications and official documentation; (2) Realistic Forensic Challenges: 150 CTF-style tasks testing multi-step reasoning and evidence correlation; and (3) Practical Analysis: 500 disk and memory forensics cases from the NIST Computer Forensics Tool Testing Program (CFTT). We evaluated 14 LLMs using DFIR-Metric, analyzing both their accuracy and consistency across trials. We also introduce a new metric, the Task Understanding Score (TUS), designed to more effectively evaluate models in scenarios where they achieve near-zero accuracy. This benchmark offers a rigorous, reproducible foundation for advancing AI in digital forensics. All scripts, artifacts, and results are available on the project website at https://github.com/DFIR-Metric.

Summary

AI-Generated Summary

PDF32May 28, 2025