TechniqueRAG: Retrieval Augmented Generation voor Adversarial Technique Annotatie in Cyber Threat Intelligence-tekst
TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
May 17, 2025
Auteurs: Ahmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez
cs.AI
Samenvatting
Het nauwkeurig identificeren van adversariële technieken in beveiligingsteksten is cruciaal voor effectieve cyberverdediging. Bestaande methoden kampen echter met een fundamentele afweging: ze zijn ofwel gebaseerd op generieke modellen met beperkte domeinprecisie, of vereisen resource-intensieve pijplijnen die afhankelijk zijn van grote gelabelde datasets en taakspecifieke optimalisaties, zoals aangepaste hard-negative mining en denoising, middelen die zelden beschikbaar zijn in gespecialiseerde domeinen.
Wij stellen TechniqueRAG voor, een domeinspecifiek retrieval-augmented generation (RAG) framework dat deze kloof overbrugt door off-the-shelf retrievers, instruction-tuned LLM's en minimale tekst-techniekparen te integreren. Onze aanpak gaat het probleem van dataschaarste te lijf door alleen het generatiecomponent te fine-tunen op beperkte in-domeinvoorbeelden, waardoor de noodzaak voor resource-intensieve retrievertraining wordt omzeild. Hoewel conventionele RAG hallucinatie vermindert door retrieval en generatie te koppelen, introduceert de afhankelijkheid van generieke retrievers vaak ruis in de kandidaten, wat de domeinspecifieke precisie beperkt. Om dit aan te pakken, verbeteren we de retrievalkwaliteit en domeinspecificiteit door middel van zero-shot LLM herrangschikking, die expliciet de opgehaalde kandidaten afstemt op adversariële technieken.
Experimenten op meerdere beveiligingsbenchmarks tonen aan dat TechniqueRAG state-of-the-art prestaties bereikt zonder uitgebreide taakspecifieke optimalisaties of gelabelde data, terwijl een uitgebreide analyse verdere inzichten biedt.
English
Accurately identifying adversarial techniques in security texts is critical
for effective cyber defense. However, existing methods face a fundamental
trade-off: they either rely on generic models with limited domain precision or
require resource-intensive pipelines that depend on large labeled datasets and
task-specific optimizations, such as custom hard-negative mining and denoising,
resources rarely available in specialized domains.
We propose TechniqueRAG, a domain-specific retrieval-augmented generation
(RAG) framework that bridges this gap by integrating off-the-shelf retrievers,
instruction-tuned LLMs, and minimal text-technique pairs. Our approach
addresses data scarcity by fine-tuning only the generation component on limited
in-domain examples, circumventing the need for resource-intensive retrieval
training. While conventional RAG mitigates hallucination by coupling retrieval
and generation, its reliance on generic retrievers often introduces noisy
candidates, limiting domain-specific precision. To address this, we enhance
retrieval quality and domain specificity through zero-shot LLM re-ranking,
which explicitly aligns retrieved candidates with adversarial techniques.
Experiments on multiple security benchmarks demonstrate that TechniqueRAG
achieves state-of-the-art performance without extensive task-specific
optimizations or labeled data, while comprehensive analysis provides further
insights.Summary
AI-Generated Summary