TechniqueRAG: Generazione Aumentata dal Recupero per l'Annotazione di Tecniche Adversariali nei Testi di Cyber Threat Intelligence
TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
May 17, 2025
Autori: Ahmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez
cs.AI
Abstract
Identificare con precisione le tecniche avversarie nei testi di sicurezza è fondamentale per una difesa informatica efficace. Tuttavia, i metodi esistenti affrontano un compromesso fondamentale: si basano su modelli generici con una precisione limitata nel dominio o richiedono pipeline ad alta intensità di risorse che dipendono da grandi dataset etichettati e ottimizzazioni specifiche per il compito, come l'estrazione di negativi difficili personalizzati e la rimozione del rumore, risorse raramente disponibili in domini specializzati.
Proponiamo TechniqueRAG, un framework di generazione aumentata dal recupero (RAG) specifico per il dominio, che colma questa lacuna integrando recuperatori preesistenti, LLM ottimizzati per istruzioni e un numero minimo di coppie testo-tecnica. Il nostro approccio affronta la scarsità di dati ottimizzando solo il componente di generazione su un numero limitato di esempi interni al dominio, evitando la necessità di un addestramento intensivo per il recupero. Mentre il RAG convenzionale mitiga le allucinazioni accoppiando il recupero e la generazione, la sua dipendenza da recuperatori generici spesso introduce candidati rumorosi, limitando la precisione specifica del dominio. Per risolvere questo problema, miglioriamo la qualità del recupero e la specificità del dominio attraverso un riordinamento zero-shot basato su LLM, che allinea esplicitamente i candidati recuperati con le tecniche avversarie.
Esperimenti su più benchmark di sicurezza dimostrano che TechniqueRAG raggiunge prestazioni all'avanguardia senza estese ottimizzazioni specifiche per il compito o dati etichettati, mentre un'analisi completa fornisce ulteriori approfondimenti.
English
Accurately identifying adversarial techniques in security texts is critical
for effective cyber defense. However, existing methods face a fundamental
trade-off: they either rely on generic models with limited domain precision or
require resource-intensive pipelines that depend on large labeled datasets and
task-specific optimizations, such as custom hard-negative mining and denoising,
resources rarely available in specialized domains.
We propose TechniqueRAG, a domain-specific retrieval-augmented generation
(RAG) framework that bridges this gap by integrating off-the-shelf retrievers,
instruction-tuned LLMs, and minimal text-technique pairs. Our approach
addresses data scarcity by fine-tuning only the generation component on limited
in-domain examples, circumventing the need for resource-intensive retrieval
training. While conventional RAG mitigates hallucination by coupling retrieval
and generation, its reliance on generic retrievers often introduces noisy
candidates, limiting domain-specific precision. To address this, we enhance
retrieval quality and domain specificity through zero-shot LLM re-ranking,
which explicitly aligns retrieved candidates with adversarial techniques.
Experiments on multiple security benchmarks demonstrate that TechniqueRAG
achieves state-of-the-art performance without extensive task-specific
optimizations or labeled data, while comprehensive analysis provides further
insights.