ChatPaper.aiChatPaper

DFIR-Metric: Un Conjunto de Datos de Referencia para Evaluar Modelos de Lenguaje a Gran Escala en Forensia Digital y Respuesta a Incidentes

DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response

May 26, 2025
Autores: Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi
cs.AI

Resumen

La Investigación Forense Digital y Respuesta a Incidentes (DFIR, por sus siglas en inglés) implica el análisis de evidencia digital para respaldar investigaciones legales. Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ofrecen nuevas oportunidades en tareas de DFIR, como el análisis de registros y la forensia de memoria, pero su susceptibilidad a errores y alucinaciones genera preocupación en contextos de alto riesgo. A pesar del creciente interés, no existe un punto de referencia integral para evaluar los LLMs en los dominios teóricos y prácticos de DFIR. Para abordar esta brecha, presentamos DFIR-Metric, un punto de referencia con tres componentes: (1) Evaluación de Conocimiento: un conjunto de 700 preguntas de opción múltiple revisadas por expertos, obtenidas de certificaciones estándar de la industria y documentación oficial; (2) Desafíos Forenses Realistas: 150 tareas estilo CTF que ponen a prueba el razonamiento de múltiples pasos y la correlación de evidencias; y (3) Análisis Práctico: 500 casos de forensia de disco y memoria del Programa de Pruebas de Herramientas de Informática Forense del NIST (CFTT, por sus siglas en inglés). Evaluamos 14 LLMs utilizando DFIR-Metric, analizando tanto su precisión como su consistencia en múltiples pruebas. También introducimos una nueva métrica, la Puntuación de Comprensión de Tareas (TUS, por sus siglas en inglés), diseñada para evaluar de manera más efectiva los modelos en escenarios donde logran una precisión cercana a cero. Este punto de referencia ofrece una base rigurosa y reproducible para avanzar en la aplicación de la IA en la forensia digital. Todos los scripts, artefactos y resultados están disponibles en el sitio web del proyecto en https://github.com/DFIR-Metric.
English
Digital Forensics and Incident Response (DFIR) involves analyzing digital evidence to support legal investigations. Large Language Models (LLMs) offer new opportunities in DFIR tasks such as log analysis and memory forensics, but their susceptibility to errors and hallucinations raises concerns in high-stakes contexts. Despite growing interest, there is no comprehensive benchmark to evaluate LLMs across both theoretical and practical DFIR domains. To address this gap, we present DFIR-Metric, a benchmark with three components: (1) Knowledge Assessment: a set of 700 expert-reviewed multiple-choice questions sourced from industry-standard certifications and official documentation; (2) Realistic Forensic Challenges: 150 CTF-style tasks testing multi-step reasoning and evidence correlation; and (3) Practical Analysis: 500 disk and memory forensics cases from the NIST Computer Forensics Tool Testing Program (CFTT). We evaluated 14 LLMs using DFIR-Metric, analyzing both their accuracy and consistency across trials. We also introduce a new metric, the Task Understanding Score (TUS), designed to more effectively evaluate models in scenarios where they achieve near-zero accuracy. This benchmark offers a rigorous, reproducible foundation for advancing AI in digital forensics. All scripts, artifacts, and results are available on the project website at https://github.com/DFIR-Metric.

Summary

AI-Generated Summary

PDF32May 28, 2025