TécnicaRAG: Geração Aumentada por Recuperação para Anotação de Técnicas Adversárias em Textos de Inteligência de Ameaças Cibernéticas
TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
May 17, 2025
Autores: Ahmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez
cs.AI
Resumo
Identificar com precisão técnicas adversárias em textos de segurança é crucial para uma defesa cibernética eficaz. No entanto, os métodos existentes enfrentam uma troca fundamental: eles dependem de modelos genéricos com precisão limitada no domínio ou exigem pipelines intensivos em recursos que dependem de grandes conjuntos de dados rotulados e otimizações específicas para a tarefa, como mineração personalizada de negativos difíceis e remoção de ruído, recursos raramente disponíveis em domínios especializados.
Propomos o TechniqueRAG, uma estrutura de geração aumentada por recuperação (RAG) específica para o domínio que preenche essa lacuna ao integrar recuperadores prontos para uso, LLMs ajustados por instrução e pares mínimos de texto-técnica. Nossa abordagem aborda a escassez de dados ao ajustar apenas o componente de geração em exemplos limitados do domínio, contornando a necessidade de treinamento intensivo em recursos de recuperação. Embora o RAG convencional mitigue a alucinação ao acoplar recuperação e geração, sua dependência de recuperadores genéricos frequentemente introduz candidatos ruidosos, limitando a precisão específica do domínio. Para resolver isso, melhoramos a qualidade da recuperação e a especificidade do domínio por meio de reclassificação zero-shot com LLM, que alinha explicitamente os candidatos recuperados com técnicas adversárias.
Experimentos em vários benchmarks de segurança demonstram que o TechniqueRAG alcança desempenho de ponta sem extensas otimizações específicas para a tarefa ou dados rotulados, enquanto uma análise abrangente fornece insights adicionais.
English
Accurately identifying adversarial techniques in security texts is critical
for effective cyber defense. However, existing methods face a fundamental
trade-off: they either rely on generic models with limited domain precision or
require resource-intensive pipelines that depend on large labeled datasets and
task-specific optimizations, such as custom hard-negative mining and denoising,
resources rarely available in specialized domains.
We propose TechniqueRAG, a domain-specific retrieval-augmented generation
(RAG) framework that bridges this gap by integrating off-the-shelf retrievers,
instruction-tuned LLMs, and minimal text-technique pairs. Our approach
addresses data scarcity by fine-tuning only the generation component on limited
in-domain examples, circumventing the need for resource-intensive retrieval
training. While conventional RAG mitigates hallucination by coupling retrieval
and generation, its reliance on generic retrievers often introduces noisy
candidates, limiting domain-specific precision. To address this, we enhance
retrieval quality and domain specificity through zero-shot LLM re-ranking,
which explicitly aligns retrieved candidates with adversarial techniques.
Experiments on multiple security benchmarks demonstrate that TechniqueRAG
achieves state-of-the-art performance without extensive task-specific
optimizations or labeled data, while comprehensive analysis provides further
insights.