TécnicaRAG: Generación Aumentada por Recuperación para la Anotación de Técnicas Adversarias en Textos de Inteligencia sobre Amenazas Cibernéticas
TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
May 17, 2025
Autores: Ahmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez
cs.AI
Resumen
Identificar con precisión las técnicas adversarias en textos de seguridad es crucial para una defensa cibernética efectiva. Sin embargo, los métodos existentes enfrentan un dilema fundamental: o bien dependen de modelos genéricos con precisión limitada en el dominio, o requieren pipelines intensivos en recursos que dependen de grandes conjuntos de datos etiquetados y optimizaciones específicas para la tarea, como la minería de negativos duros personalizada y la eliminación de ruido, recursos que rara vez están disponibles en dominios especializados.
Proponemos TechniqueRAG, un marco de generación aumentada por recuperación (RAG) específico del dominio que cierra esta brecha al integrar recuperadores estándar, modelos de lenguaje ajustados por instrucción (LLM) y pares mínimos de texto-técnica. Nuestro enfoque aborda la escasez de datos al ajustar únicamente el componente de generación con ejemplos limitados del dominio, evitando la necesidad de un entrenamiento intensivo en recuperación. Si bien el RAG convencional mitiga la alucinación al acoplar la recuperación y la generación, su dependencia de recuperadores genéricos a menudo introduce candidatos ruidosos, limitando la precisión específica del dominio. Para abordar esto, mejoramos la calidad de la recuperación y la especificidad del dominio mediante la reordenación de candidatos recuperados con LLM en modo zero-shot, lo que alinea explícitamente los candidatos recuperados con las técnicas adversarias.
Los experimentos en múltiples benchmarks de seguridad demuestran que TechniqueRAG logra un rendimiento de vanguardia sin optimizaciones extensas específicas de la tarea o datos etiquetados, mientras que un análisis exhaustivo proporciona más insights.
English
Accurately identifying adversarial techniques in security texts is critical
for effective cyber defense. However, existing methods face a fundamental
trade-off: they either rely on generic models with limited domain precision or
require resource-intensive pipelines that depend on large labeled datasets and
task-specific optimizations, such as custom hard-negative mining and denoising,
resources rarely available in specialized domains.
We propose TechniqueRAG, a domain-specific retrieval-augmented generation
(RAG) framework that bridges this gap by integrating off-the-shelf retrievers,
instruction-tuned LLMs, and minimal text-technique pairs. Our approach
addresses data scarcity by fine-tuning only the generation component on limited
in-domain examples, circumventing the need for resource-intensive retrieval
training. While conventional RAG mitigates hallucination by coupling retrieval
and generation, its reliance on generic retrievers often introduces noisy
candidates, limiting domain-specific precision. To address this, we enhance
retrieval quality and domain specificity through zero-shot LLM re-ranking,
which explicitly aligns retrieved candidates with adversarial techniques.
Experiments on multiple security benchmarks demonstrate that TechniqueRAG
achieves state-of-the-art performance without extensive task-specific
optimizations or labeled data, while comprehensive analysis provides further
insights.Summary
AI-Generated Summary