TechniqueRAG: Generazione Aumentata dal Recupero per l'Annotazione di Tecniche Adversariali nei Testi di Cyber Threat Intelligence

Abstract

Identificare con precisione le tecniche avversarie nei testi di sicurezza è fondamentale per una difesa informatica efficace. Tuttavia, i metodi esistenti affrontano un compromesso fondamentale: si basano su modelli generici con una precisione limitata nel dominio o richiedono pipeline ad alta intensità di risorse che dipendono da grandi dataset etichettati e ottimizzazioni specifiche per il compito, come l'estrazione di negativi difficili personalizzati e la rimozione del rumore, risorse raramente disponibili in domini specializzati. Proponiamo TechniqueRAG, un framework di generazione aumentata dal recupero (RAG) specifico per il dominio, che colma questa lacuna integrando recuperatori preesistenti, LLM ottimizzati per istruzioni e un numero minimo di coppie testo-tecnica. Il nostro approccio affronta la scarsità di dati ottimizzando solo il componente di generazione su un numero limitato di esempi interni al dominio, evitando la necessità di un addestramento intensivo per il recupero. Mentre il RAG convenzionale mitiga le allucinazioni accoppiando il recupero e la generazione, la sua dipendenza da recuperatori generici spesso introduce candidati rumorosi, limitando la precisione specifica del dominio. Per risolvere questo problema, miglioriamo la qualità del recupero e la specificità del dominio attraverso un riordinamento zero-shot basato su LLM, che allinea esplicitamente i candidati recuperati con le tecniche avversarie. Esperimenti su più benchmark di sicurezza dimostrano che TechniqueRAG raggiunge prestazioni all'avanguardia senza estese ottimizzazioni specifiche per il compito o dati etichettati, mentre un'analisi completa fornisce ulteriori approfondimenti.

English

Accurately identifying adversarial techniques in security texts is critical for effective cyber defense. However, existing methods face a fundamental trade-off: they either rely on generic models with limited domain precision or require resource-intensive pipelines that depend on large labeled datasets and task-specific optimizations, such as custom hard-negative mining and denoising, resources rarely available in specialized domains. We propose TechniqueRAG, a domain-specific retrieval-augmented generation (RAG) framework that bridges this gap by integrating off-the-shelf retrievers, instruction-tuned LLMs, and minimal text-technique pairs. Our approach addresses data scarcity by fine-tuning only the generation component on limited in-domain examples, circumventing the need for resource-intensive retrieval training. While conventional RAG mitigates hallucination by coupling retrieval and generation, its reliance on generic retrievers often introduces noisy candidates, limiting domain-specific precision. To address this, we enhance retrieval quality and domain specificity through zero-shot LLM re-ranking, which explicitly aligns retrieved candidates with adversarial techniques. Experiments on multiple security benchmarks demonstrate that TechniqueRAG achieves state-of-the-art performance without extensive task-specific optimizations or labeled data, while comprehensive analysis provides further insights.

TechniqueRAG: Generazione Aumentata dal Recupero per l'Annotazione di Tecniche Adversariali nei Testi di Cyber Threat Intelligence

TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text

Abstract

Support