TechniqueRAG: サイバー脅威インテリジェンステキストにおける敵対的技術アノテーションのための検索拡張生成
TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
May 17, 2025
著者: Ahmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez
cs.AI
要旨
セキュリティテキストにおける攻撃手法を正確に識別することは、効果的なサイバー防御において極めて重要です。しかし、既存の手法は根本的なトレードオフに直面しています。つまり、ドメイン精度が限定的な汎用モデルに依存するか、あるいは大規模なラベル付きデータセットやカスタムのハードネガティブマイニング、ノイズ除去などのタスク固有の最適化を必要とするリソース集約的なパイプラインに依存するかのいずれかであり、専門ドメインではこうしたリソースがほとんど利用できない状況です。
本論文では、このギャップを埋めるために、ドメイン固有の検索拡張生成(RAG)フレームワークであるTechniqueRAGを提案します。このアプローチでは、既存の検索エンジン、指示チューニングされた大規模言語モデル(LLM)、および最小限のテキスト-手法ペアを統合します。提案手法は、ドメイン内の限られた例に基づいて生成コンポーネントのみをファインチューニングすることでデータ不足に対処し、リソース集約的な検索トレーニングの必要性を回避します。従来のRAGは、検索と生成を組み合わせることで幻覚(hallucination)を軽減しますが、汎用検索エンジンに依存するため、ノイズの多い候補が導入され、ドメイン固有の精度が制限されることがあります。これを解決するため、ゼロショットLLMによる再ランキングを導入し、検索された候補を攻撃手法と明示的に整合させることで、検索品質とドメイン特異性を向上させます。
複数のセキュリティベンチマークでの実験により、TechniqueRAGは、大規模なタスク固有の最適化やラベル付きデータを必要とせずに、最先端の性能を達成することが実証されました。さらに、包括的な分析を通じて、さらなる洞察が得られています。
English
Accurately identifying adversarial techniques in security texts is critical
for effective cyber defense. However, existing methods face a fundamental
trade-off: they either rely on generic models with limited domain precision or
require resource-intensive pipelines that depend on large labeled datasets and
task-specific optimizations, such as custom hard-negative mining and denoising,
resources rarely available in specialized domains.
We propose TechniqueRAG, a domain-specific retrieval-augmented generation
(RAG) framework that bridges this gap by integrating off-the-shelf retrievers,
instruction-tuned LLMs, and minimal text-technique pairs. Our approach
addresses data scarcity by fine-tuning only the generation component on limited
in-domain examples, circumventing the need for resource-intensive retrieval
training. While conventional RAG mitigates hallucination by coupling retrieval
and generation, its reliance on generic retrievers often introduces noisy
candidates, limiting domain-specific precision. To address this, we enhance
retrieval quality and domain specificity through zero-shot LLM re-ranking,
which explicitly aligns retrieved candidates with adversarial techniques.
Experiments on multiple security benchmarks demonstrate that TechniqueRAG
achieves state-of-the-art performance without extensive task-specific
optimizations or labeled data, while comprehensive analysis provides further
insights.Summary
AI-Generated Summary