ChatPaper.aiChatPaper

TechniqueRAG: 사이버 위협 인텔리전스 텍스트를 위한 적대적 기법 주석을 위한 검색 증강 생성

TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text

May 17, 2025
저자: Ahmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez
cs.AI

초록

보안 텍스트에서 적대적 기법을 정확히 식별하는 것은 효과적인 사이버 방어에 있어 매우 중요합니다. 그러나 기존 방법들은 근본적인 딜레마에 직면해 있습니다: 도메인 정밀도가 제한된 일반 모델에 의존하거나, 대규모 레이블 데이터셋과 작업별 최적화(예: 맞춤형 하드 네거티브 마이닝 및 노이즈 제거)가 필요한 자원 집약적 파이프라인을 필요로 하는데, 이러한 자원은 특수 분야에서는 거의 사용할 수 없습니다. 우리는 이러한 격차를 해소하기 위해 도메인 특화 검색 증강 생성(RAG) 프레임워크인 TechniqueRAG를 제안합니다. 이 프레임워크는 기성 검색기, 명령어 튜닝된 대형 언어 모델(LLM), 그리고 최소한의 텍스트-기법 쌍을 통합합니다. 우리의 접근 방식은 제한된 도메인 내 예제에 대해 생성 구성요소만 미세 조정함으로써 데이터 부족 문제를 해결하며, 자원 집약적인 검색 훈련의 필요성을 피합니다. 기존 RAG는 검색과 생성을 결합하여 환각 현상을 완화하지만, 일반 검색기에 의존함으로써 노이즈가 많은 후보를 도입하여 도메인 특화 정밀도를 제한합니다. 이를 해결하기 위해, 우리는 제로샷 LLM 재순위를 통해 검색 품질과 도메인 특이성을 강화하며, 이는 검색된 후보를 적대적 기법과 명시적으로 정렬합니다. 여러 보안 벤치마크에서의 실험은 TechniqueRAG가 광범위한 작업별 최적화나 레이블 데이터 없이도 최첨단 성능을 달성함을 보여주며, 포괄적인 분석은 추가적인 통찰을 제공합니다.
English
Accurately identifying adversarial techniques in security texts is critical for effective cyber defense. However, existing methods face a fundamental trade-off: they either rely on generic models with limited domain precision or require resource-intensive pipelines that depend on large labeled datasets and task-specific optimizations, such as custom hard-negative mining and denoising, resources rarely available in specialized domains. We propose TechniqueRAG, a domain-specific retrieval-augmented generation (RAG) framework that bridges this gap by integrating off-the-shelf retrievers, instruction-tuned LLMs, and minimal text-technique pairs. Our approach addresses data scarcity by fine-tuning only the generation component on limited in-domain examples, circumventing the need for resource-intensive retrieval training. While conventional RAG mitigates hallucination by coupling retrieval and generation, its reliance on generic retrievers often introduces noisy candidates, limiting domain-specific precision. To address this, we enhance retrieval quality and domain specificity through zero-shot LLM re-ranking, which explicitly aligns retrieved candidates with adversarial techniques. Experiments on multiple security benchmarks demonstrate that TechniqueRAG achieves state-of-the-art performance without extensive task-specific optimizations or labeled data, while comprehensive analysis provides further insights.

Summary

AI-Generated Summary

PDF22May 20, 2025