TechniqueRAG: Генерация с усилением поиска для аннотирования методов атак в текстах киберугроз
TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text
May 17, 2025
Авторы: Ahmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez
cs.AI
Аннотация
Точное определение методов атак в текстах по безопасности имеет решающее значение для эффективной киберзащиты. Однако существующие методы сталкиваются с фундаментальным компромиссом: они либо полагаются на универсальные модели с ограниченной точностью в предметной области, либо требуют ресурсоемких процессов, зависящих от больших размеченных наборов данных и специфических оптимизаций, таких как создание сложных отрицательных примеров и удаление шума, ресурсов, которые редко доступны в специализированных областях.
Мы предлагаем TechniqueRAG, предметно-ориентированную структуру на основе извлечения и генерации (RAG), которая устраняет этот разрыв, интегрируя готовые модели для извлечения, крупные языковые модели (LLM), настроенные на инструкции, и минимальные пары текст-метод. Наш подход решает проблему нехватки данных, тонко настраивая только компонент генерации на ограниченных примерах из предметной области, избегая необходимости в ресурсоемком обучении извлечения. В то время как традиционный RAG снижает вероятность галлюцинаций, связывая извлечение и генерацию, его зависимость от универсальных моделей извлечения часто приводит к появлению шумных кандидатов, ограничивая точность в предметной области. Чтобы решить эту проблему, мы повышаем качество извлечения и предметную специфичность с помощью повторного ранжирования с использованием LLM в режиме zero-shot, что явно согласует извлеченные кандидаты с методами атак.
Эксперименты на нескольких тестовых наборах данных по безопасности показывают, что TechniqueRAG достигает наилучших результатов без обширных специфических оптимизаций или размеченных данных, а всесторонний анализ предоставляет дополнительные инсайты.
English
Accurately identifying adversarial techniques in security texts is critical
for effective cyber defense. However, existing methods face a fundamental
trade-off: they either rely on generic models with limited domain precision or
require resource-intensive pipelines that depend on large labeled datasets and
task-specific optimizations, such as custom hard-negative mining and denoising,
resources rarely available in specialized domains.
We propose TechniqueRAG, a domain-specific retrieval-augmented generation
(RAG) framework that bridges this gap by integrating off-the-shelf retrievers,
instruction-tuned LLMs, and minimal text-technique pairs. Our approach
addresses data scarcity by fine-tuning only the generation component on limited
in-domain examples, circumventing the need for resource-intensive retrieval
training. While conventional RAG mitigates hallucination by coupling retrieval
and generation, its reliance on generic retrievers often introduces noisy
candidates, limiting domain-specific precision. To address this, we enhance
retrieval quality and domain specificity through zero-shot LLM re-ranking,
which explicitly aligns retrieved candidates with adversarial techniques.
Experiments on multiple security benchmarks demonstrate that TechniqueRAG
achieves state-of-the-art performance without extensive task-specific
optimizations or labeled data, while comprehensive analysis provides further
insights.Summary
AI-Generated Summary