ChatPaper.aiChatPaper

TechniqueRAG : Génération Augmentée par Récupération pour l'Annotation de Techniques Adverses dans les Textes de Renseignement sur les Cybermenaces

TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text

May 17, 2025
Auteurs: Ahmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez
cs.AI

Résumé

L'identification précise des techniques adverses dans les textes de sécurité est cruciale pour une cyberdéfense efficace. Cependant, les méthodes existantes sont confrontées à un compromis fondamental : elles reposent soit sur des modèles génériques avec une précision limitée dans le domaine, soit sur des pipelines gourmands en ressources nécessitant de grands ensembles de données étiquetées et des optimisations spécifiques à la tâche, telles que l'extraction de négatifs difficiles personnalisés et le débruitage, des ressources rarement disponibles dans des domaines spécialisés. Nous proposons TechniqueRAG, un cadre de génération augmentée par récupération (RAG) spécifique au domaine, qui comble cette lacune en intégrant des récupérateurs prêts à l'emploi, des modèles de langage à grande échelle (LLM) ajustés par instruction et un nombre minimal de paires texte-technique. Notre approche résout le problème de la rareté des données en affinant uniquement le composant de génération sur un nombre limité d'exemples intra-domaines, évitant ainsi le besoin d'un entraînement de récupération intensif en ressources. Bien que le RAG conventionnel atténue les hallucinations en couplant récupération et génération, sa dépendance à des récupérateurs génériques introduit souvent des candidats bruyants, limitant la précision spécifique au domaine. Pour remédier à cela, nous améliorons la qualité de la récupération et la spécificité du domaine grâce à un reclassement zero-shot par LLM, qui aligne explicitement les candidats récupérés avec les techniques adverses. Les expériences sur plusieurs benchmarks de sécurité démontrent que TechniqueRAG atteint des performances de pointe sans nécessiter d'optimisations spécifiques à la tâche ou de données étiquetées étendues, tandis qu'une analyse approfondie fournit des insights supplémentaires.
English
Accurately identifying adversarial techniques in security texts is critical for effective cyber defense. However, existing methods face a fundamental trade-off: they either rely on generic models with limited domain precision or require resource-intensive pipelines that depend on large labeled datasets and task-specific optimizations, such as custom hard-negative mining and denoising, resources rarely available in specialized domains. We propose TechniqueRAG, a domain-specific retrieval-augmented generation (RAG) framework that bridges this gap by integrating off-the-shelf retrievers, instruction-tuned LLMs, and minimal text-technique pairs. Our approach addresses data scarcity by fine-tuning only the generation component on limited in-domain examples, circumventing the need for resource-intensive retrieval training. While conventional RAG mitigates hallucination by coupling retrieval and generation, its reliance on generic retrievers often introduces noisy candidates, limiting domain-specific precision. To address this, we enhance retrieval quality and domain specificity through zero-shot LLM re-ranking, which explicitly aligns retrieved candidates with adversarial techniques. Experiments on multiple security benchmarks demonstrate that TechniqueRAG achieves state-of-the-art performance without extensive task-specific optimizations or labeled data, while comprehensive analysis provides further insights.

Summary

AI-Generated Summary

PDF22May 20, 2025