데이터 제약 조건에서의 취약성 목격 빈도 예측: 희소성과 집중성을 고려한 모델링
Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints
April 17, 2026
저자: Cedric Bonhomme, Alexandre Dulaunoy
cs.AI
초록
취약점 관련 활동을 이해하고 예측하는 것은 사이버 위협 인텔리전스의 주요 과제입니다. 본 연구는 개념 증명 공개, 탐지 템플릿, 온라인 논의와 같은 취약점 목격(sighting)이 시간에 따라 예측 가능한지 조사합니다. 텍스트 설명으로부터 취약점 심각도를 예측하는 트랜스포머 기반 모델인 VLAI에 대한 기존 연구를 바탕으로, 심각도 점수가 외생 변수로서 시계열 예측 성능을 향상시킬 수 있는지 검토합니다. 우리는 취약점별 단기 목격 횟수 예측을 위해 여러 접근법을 평가합니다. 먼저, 로그(x+1) 변환 및 VLAI 기반 심각도 입력 적용 여부에 따른 SARIMAX 모델을 테스트합니다. 이러한 조정이 제한적인 개선만 제공하지만, SARIMAX는 희소하고 짧으며 폭발적인 특성을 가진 취약점 데이터에는 여전히 적합하지 않습니다. 실제로 예측은 종종 지나치게 넓은 신뢰 구간과 때로는 비현실적인 음수 값을 생성합니다. 목격의 이산적이고 사건 기반인 특성을 더 잘捕捉하기 위해 포아송 회귀와 같은 계수 기반 방법을 탐구합니다. 초기 결과에 따르면, 특히 목격 데이터를 주간으로 집계할 때 이러한 모델이 더 안정적이고 해석 가능한 예측을 생성합니다. 또한 긴 역사적 시계열을 요구하지 않고 향후 활동을 추정하기 위해 단기 예측 기간에 대한 지수 감쇠 함수와 같은 더 간단한 운영적 대안도 논의합니다. 전반적으로, 본 연구는 드물고 폭발적인 사이버 이벤트 예측의 잠재력과 한계를 동시에 강조하며, 예측 분석을 취약점 인텔리전스 워크플로우에 통합하기 위한 실용적인 지침을 제공합니다.
English
Understanding and anticipating vulnerability-related activity is a major challenge in cyber threat intelligence. This work investigates whether vulnerability sightings, such as proof-of-concept releases, detection templates, or online discussions, can be forecast over time. Building on our earlier work on VLAI, a transformer-based model that predicts vulnerability severity from textual descriptions, we examine whether severity scores can improve time-series forecasting as exogenous variables. We evaluate several approaches for short-term forecasting of sightings per vulnerability. First, we test SARIMAX models with and without log(x+1) transformations and VLAI-derived severity inputs. Although these adjustments provide limited improvements, SARIMAX remains poorly suited to sparse, short, and bursty vulnerability data. In practice, forecasts often produce overly wide confidence intervals and sometimes unrealistic negative values. To better capture the discrete and event-driven nature of sightings, we then explore count-based methods such as Poisson regression. Early results show that these models produce more stable and interpretable forecasts, especially when sightings are aggregated weekly. We also discuss simpler operational alternatives, including exponential decay functions for short forecasting horizons, to estimate future activity without requiring long historical series. Overall, this study highlights both the potential and the limitations of forecasting rare and bursty cyber events, and provides practical guidance for integrating predictive analytics into vulnerability intelligence workflows.