ChatPaper.aiChatPaper

DFIR-Metric: デジタルフォレンジックおよびインシデントレスポンスにおける大規模言語モデルを評価するためのベンチマークデータセット

DFIR-Metric: A Benchmark Dataset for Evaluating Large Language Models in Digital Forensics and Incident Response

May 26, 2025
著者: Bilel Cherif, Tamas Bisztray, Richard A. Dubniczky, Aaesha Aldahmani, Saeed Alshehhi, Norbert Tihanyi
cs.AI

要旨

デジタルフォレンジックスとインシデントレスポンス(DFIR)は、法的調査を支援するためにデジタル証拠を分析することを含む。大規模言語モデル(LLM)は、ログ分析やメモリフォレンジックスなどのDFIRタスクにおいて新たな機会を提供するが、エラーや幻覚に対する脆弱性が高リスクの文脈で懸念を引き起こす。関心が高まる中、理論的および実践的なDFIR領域にわたってLLMを評価する包括的なベンチマークは存在しない。このギャップを埋めるため、我々はDFIR-Metricを提案する。このベンチマークは3つのコンポーネントで構成される:(1) 知識評価:業界標準の認定資格や公式ドキュメントから収集した700問の専門家レビュー済み多肢選択問題、(2) 現実的なフォレンジック課題:多段階推論と証拠相関をテストする150のCTFスタイルタスク、(3) 実践的分析:NISTコンピュータフォレンジックツールテストプログラム(CFTT)からの500のディスクおよびメモリフォレンジックケース。我々はDFIR-Metricを使用して14のLLMを評価し、その精度と試行間の一貫性を分析した。また、ほぼゼロの精度を達成するシナリオにおいてモデルをより効果的に評価するために、タスク理解スコア(TUS)という新しい指標を導入した。このベンチマークは、デジタルフォレンジックスにおけるAIの進歩のための厳密で再現可能な基盤を提供する。すべてのスクリプト、アーティファクト、結果はプロジェクトウェブサイトhttps://github.com/DFIR-Metricで公開されている。
English
Digital Forensics and Incident Response (DFIR) involves analyzing digital evidence to support legal investigations. Large Language Models (LLMs) offer new opportunities in DFIR tasks such as log analysis and memory forensics, but their susceptibility to errors and hallucinations raises concerns in high-stakes contexts. Despite growing interest, there is no comprehensive benchmark to evaluate LLMs across both theoretical and practical DFIR domains. To address this gap, we present DFIR-Metric, a benchmark with three components: (1) Knowledge Assessment: a set of 700 expert-reviewed multiple-choice questions sourced from industry-standard certifications and official documentation; (2) Realistic Forensic Challenges: 150 CTF-style tasks testing multi-step reasoning and evidence correlation; and (3) Practical Analysis: 500 disk and memory forensics cases from the NIST Computer Forensics Tool Testing Program (CFTT). We evaluated 14 LLMs using DFIR-Metric, analyzing both their accuracy and consistency across trials. We also introduce a new metric, the Task Understanding Score (TUS), designed to more effectively evaluate models in scenarios where they achieve near-zero accuracy. This benchmark offers a rigorous, reproducible foundation for advancing AI in digital forensics. All scripts, artifacts, and results are available on the project website at https://github.com/DFIR-Metric.

Summary

AI-Generated Summary

PDF32May 28, 2025