DFIR-Metric: Набор данных для оценки крупных языковых моделей в области цифровой криминалистики и реагирования на инциденты
DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response
May 26, 2025
Авторы: Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi
cs.AI
Аннотация
Цифровая криминалистика и реагирование на инциденты (Digital Forensics and Incident Response, DFIR) включает анализ цифровых доказательств для поддержки юридических расследований. Большие языковые модели (Large Language Models, LLMs) открывают новые возможности в задачах DFIR, таких как анализ логов и криминалистика памяти, но их склонность к ошибкам и галлюцинациям вызывает опасения в контекстах с высокими ставками. Несмотря на растущий интерес, отсутствует всеобъемлющий бенчмарк для оценки LLMs как в теоретических, так и в практических аспектах DFIR. Чтобы устранить этот пробел, мы представляем DFIR-Metric — бенчмарк, состоящий из трех компонентов: (1) Оценка знаний: набор из 700 вопросов с множественным выбором, проверенных экспертами и основанных на отраслевых сертификациях и официальной документации; (2) Реалистичные криминалистические задачи: 150 заданий в стиле Capture the Flag (CTF), проверяющих многошаговое рассуждение и корреляцию доказательств; и (3) Практический анализ: 500 случаев криминалистики дисков и памяти из программы NIST Computer Forensics Tool Testing (CFTT). Мы оценили 14 LLMs с использованием DFIR-Metric, проанализировав как их точность, так и согласованность результатов в нескольких испытаниях. Также мы вводим новый метрический показатель — Task Understanding Score (TUS), предназначенный для более эффективной оценки моделей в сценариях, где они демонстрируют близкую к нулю точность. Этот бенчмарк предлагает строгую и воспроизводимую основу для развития ИИ в области цифровой криминалистики. Все скрипты, артефакты и результаты доступны на сайте проекта: https://github.com/DFIR-Metric.
English
Digital Forensics and Incident Response (DFIR) involves analyzing digital
evidence to support legal investigations. Large Language Models (LLMs) offer
new opportunities in DFIR tasks such as log analysis and memory forensics, but
their susceptibility to errors and hallucinations raises concerns in
high-stakes contexts. Despite growing interest, there is no comprehensive
benchmark to evaluate LLMs across both theoretical and practical DFIR domains.
To address this gap, we present DFIR-Metric, a benchmark with three components:
(1) Knowledge Assessment: a set of 700 expert-reviewed multiple-choice
questions sourced from industry-standard certifications and official
documentation; (2) Realistic Forensic Challenges: 150 CTF-style tasks testing
multi-step reasoning and evidence correlation; and (3) Practical Analysis: 500
disk and memory forensics cases from the NIST Computer Forensics Tool Testing
Program (CFTT). We evaluated 14 LLMs using DFIR-Metric, analyzing both their
accuracy and consistency across trials. We also introduce a new metric, the
Task Understanding Score (TUS), designed to more effectively evaluate models in
scenarios where they achieve near-zero accuracy. This benchmark offers a
rigorous, reproducible foundation for advancing AI in digital forensics. All
scripts, artifacts, and results are available on the project website at
https://github.com/DFIR-Metric.Summary
AI-Generated Summary