TechniqueRAG: Retrieval-Augmented Generation für die Annotation von Adversarial Techniques in Cyber-Threat-Intelligence-Texten
TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
May 17, 2025
Autoren: Ahmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez
cs.AI
Zusammenfassung
Die präzise Identifizierung von Angriffstechniken in Sicherheitstexten ist entscheidend für eine effektive Cyberabwehr. Bestehende Methoden stehen jedoch vor einem grundlegenden Dilemma: Sie verlassen sich entweder auf generische Modelle mit begrenzter Domänenpräzision oder erfordern ressourcenintensive Pipelines, die auf großen annotierten Datensätzen und aufgabenspezifischen Optimierungen wie benutzerdefiniertem Hard-Negative-Mining und Rauschunterdrückung basieren – Ressourcen, die in spezialisierten Domänen selten verfügbar sind.
Wir schlagen TechniqueRAG vor, ein domänenspezifisches Retrieval-Augmented-Generation (RAG)-Framework, das diese Lücke schließt, indem es Standard-Retriever, instruktionsoptimierte LLMs (Large Language Models) und minimale Text-Technik-Paare integriert. Unser Ansatz adressiert die Datenknappheit, indem nur die Generationskomponente anhand weniger domänenspezifischer Beispiele feinabgestimmt wird, wodurch der Bedarf an ressourcenintensivem Retrieval-Training entfällt. Während herkömmliches RAG Halluzinationen durch die Kopplung von Retrieval und Generierung reduziert, führt die Abhängigkeit von generischen Retrievern oft zu verrauschten Kandidaten, was die domänenspezifische Präzision einschränkt. Um dies zu beheben, verbessern wir die Retrieval-Qualität und Domänenspezifität durch Zero-Shot-LLM-Re-Ranking, das die abgerufenen Kandidaten explizit mit Angriffstechniken in Einklang bringt.
Experimente auf mehreren Sicherheits-Benchmarks zeigen, dass TechniqueRAG ohne umfangreiche aufgabenspezifische Optimierungen oder annotierte Daten state-of-the-art Leistung erzielt, während eine umfassende Analyse weitere Einblicke liefert.
English
Accurately identifying adversarial techniques in security texts is critical
for effective cyber defense. However, existing methods face a fundamental
trade-off: they either rely on generic models with limited domain precision or
require resource-intensive pipelines that depend on large labeled datasets and
task-specific optimizations, such as custom hard-negative mining and denoising,
resources rarely available in specialized domains.
We propose TechniqueRAG, a domain-specific retrieval-augmented generation
(RAG) framework that bridges this gap by integrating off-the-shelf retrievers,
instruction-tuned LLMs, and minimal text-technique pairs. Our approach
addresses data scarcity by fine-tuning only the generation component on limited
in-domain examples, circumventing the need for resource-intensive retrieval
training. While conventional RAG mitigates hallucination by coupling retrieval
and generation, its reliance on generic retrievers often introduces noisy
candidates, limiting domain-specific precision. To address this, we enhance
retrieval quality and domain specificity through zero-shot LLM re-ranking,
which explicitly aligns retrieved candidates with adversarial techniques.
Experiments on multiple security benchmarks demonstrate that TechniqueRAG
achieves state-of-the-art performance without extensive task-specific
optimizations or labeled data, while comprehensive analysis provides further
insights.Summary
AI-Generated Summary