TécnicaRAG: Generación Aumentada por Recuperación para la Anotación de Técnicas Adversarias en Textos de Inteligencia sobre Amenazas Cibernéticas

Resumen

Identificar con precisión las técnicas adversarias en textos de seguridad es crucial para una defensa cibernética efectiva. Sin embargo, los métodos existentes enfrentan un dilema fundamental: o bien dependen de modelos genéricos con precisión limitada en el dominio, o requieren pipelines intensivos en recursos que dependen de grandes conjuntos de datos etiquetados y optimizaciones específicas para la tarea, como la minería de negativos duros personalizada y la eliminación de ruido, recursos que rara vez están disponibles en dominios especializados. Proponemos TechniqueRAG, un marco de generación aumentada por recuperación (RAG) específico del dominio que cierra esta brecha al integrar recuperadores estándar, modelos de lenguaje ajustados por instrucción (LLM) y pares mínimos de texto-técnica. Nuestro enfoque aborda la escasez de datos al ajustar únicamente el componente de generación con ejemplos limitados del dominio, evitando la necesidad de un entrenamiento intensivo en recuperación. Si bien el RAG convencional mitiga la alucinación al acoplar la recuperación y la generación, su dependencia de recuperadores genéricos a menudo introduce candidatos ruidosos, limitando la precisión específica del dominio. Para abordar esto, mejoramos la calidad de la recuperación y la especificidad del dominio mediante la reordenación de candidatos recuperados con LLM en modo zero-shot, lo que alinea explícitamente los candidatos recuperados con las técnicas adversarias. Los experimentos en múltiples benchmarks de seguridad demuestran que TechniqueRAG logra un rendimiento de vanguardia sin optimizaciones extensas específicas de la tarea o datos etiquetados, mientras que un análisis exhaustivo proporciona más insights.

English

Accurately identifying adversarial techniques in security texts is critical for effective cyber defense. However, existing methods face a fundamental trade-off: they either rely on generic models with limited domain precision or require resource-intensive pipelines that depend on large labeled datasets and task-specific optimizations, such as custom hard-negative mining and denoising, resources rarely available in specialized domains. We propose TechniqueRAG, a domain-specific retrieval-augmented generation (RAG) framework that bridges this gap by integrating off-the-shelf retrievers, instruction-tuned LLMs, and minimal text-technique pairs. Our approach addresses data scarcity by fine-tuning only the generation component on limited in-domain examples, circumventing the need for resource-intensive retrieval training. While conventional RAG mitigates hallucination by coupling retrieval and generation, its reliance on generic retrievers often introduces noisy candidates, limiting domain-specific precision. To address this, we enhance retrieval quality and domain specificity through zero-shot LLM re-ranking, which explicitly aligns retrieved candidates with adversarial techniques. Experiments on multiple security benchmarks demonstrate that TechniqueRAG achieves state-of-the-art performance without extensive task-specific optimizations or labeled data, while comprehensive analysis provides further insights.

TécnicaRAG: Generación Aumentada por Recuperación para la Anotación de Técnicas Adversarias en Textos de Inteligencia sobre Amenazas Cibernéticas

TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text

Resumen

Support