ChatPaper.aiChatPaper

DFIR-Metric: Um Conjunto de Dados de Referência para Avaliação de Modelos de Linguagem de Grande Escala em Forense Digital e Resposta a Incidentes

DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response

May 26, 2025
Autores: Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi
cs.AI

Resumo

A área de Forense Digital e Resposta a Incidentes (DFIR, na sigla em inglês) envolve a análise de evidências digitais para apoiar investigações legais. Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) oferecem novas oportunidades em tarefas de DFIR, como análise de logs e forense de memória, mas sua suscetibilidade a erros e alucinações levanta preocupações em contextos de alta responsabilidade. Apesar do crescente interesse, não há um benchmark abrangente para avaliar LLMs tanto em domínios teóricos quanto práticos de DFIR. Para preencher essa lacuna, apresentamos o DFIR-Metric, um benchmark composto por três componentes: (1) Avaliação de Conhecimento: um conjunto de 700 questões de múltipla escolha revisadas por especialistas, extraídas de certificações padrão da indústria e documentação oficial; (2) Desafios Forenses Realistas: 150 tarefas no estilo Capture the Flag (CTF) que testam raciocínio em múltiplas etapas e correlação de evidências; e (3) Análise Prática: 500 casos de forense de disco e memória do Programa de Testes de Ferramentas de Forense Computacional do NIST (CFTT, na sigla em inglês). Avaliamos 14 LLMs usando o DFIR-Metric, analisando tanto sua precisão quanto consistência ao longo dos testes. Também introduzimos uma nova métrica, o Task Understanding Score (TUS), projetado para avaliar de forma mais eficaz os modelos em cenários onde eles atingem precisão próxima de zero. Este benchmark oferece uma base rigorosa e reproduzível para o avanço da IA na forense digital. Todos os scripts, artefatos e resultados estão disponíveis no site do projeto em https://github.com/DFIR-Metric.
English
Digital Forensics and Incident Response (DFIR) involves analyzing digital evidence to support legal investigations. Large Language Models (LLMs) offer new opportunities in DFIR tasks such as log analysis and memory forensics, but their susceptibility to errors and hallucinations raises concerns in high-stakes contexts. Despite growing interest, there is no comprehensive benchmark to evaluate LLMs across both theoretical and practical DFIR domains. To address this gap, we present DFIR-Metric, a benchmark with three components: (1) Knowledge Assessment: a set of 700 expert-reviewed multiple-choice questions sourced from industry-standard certifications and official documentation; (2) Realistic Forensic Challenges: 150 CTF-style tasks testing multi-step reasoning and evidence correlation; and (3) Practical Analysis: 500 disk and memory forensics cases from the NIST Computer Forensics Tool Testing Program (CFTT). We evaluated 14 LLMs using DFIR-Metric, analyzing both their accuracy and consistency across trials. We also introduce a new metric, the Task Understanding Score (TUS), designed to more effectively evaluate models in scenarios where they achieve near-zero accuracy. This benchmark offers a rigorous, reproducible foundation for advancing AI in digital forensics. All scripts, artifacts, and results are available on the project website at https://github.com/DFIR-Metric.
PDF32December 4, 2025