ChatPaper.aiChatPaper

データ制約下における希少かつ突発的な脆弱性発見のモデリングと予測

Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

April 17, 2026
著者: Cedric Bonhomme, Alexandre Dulaunoy
cs.AI

要旨

脆弱性に関連する活動の理解と予測は、サイバー脅威インテリジェンスにおける主要な課題である。本研究は、概念実証の公開、検出テンプレート、オンライン議論などの脆弱性目撃情報が、時間経過に伴って予測可能かどうかを調査する。テキスト記述から脆弱性の重大度を予測するTransformerベースのモデルであるVLAIに関する我々の以前の研究を基盤とし、重大度スコアが外生変数として時系列予測を改善できるかどうかを検証する。脆弱性ごとの目撃情報の短期予測に対して複数のアプローチを評価する。まず、log(x+1)変換およびVLAIから導出した重大度入力を適用したSARIMAXモデルと適用しないモデルをテストする。これらの調整による改善は限定的であるものの、SARIMAXは疎で短く、バースト性の高い脆弱性データには不適切なままである。実際には、予測が過度に広い信頼区間を生成し、非現実的な負の値を示す場合もある。目撃情報の離散的かつイベント駆動型の性質をより適切に捉えるため、ポアソン回帰などのカウントベースの手法を探究する。初期結果は、特に目撃情報を週次で集計した場合、これらのモデルがより安定し解釈可能な予測を生成することを示している。また、長い履歴系列を必要とせずに将来の活動を推定するための、短期予測視野に対する指数減衰関数など、より簡易な運用上の代替案についても議論する。全体として、本研究は、稀でバースト性の高いサイバーイベントの予測の可能性と限界の両方を明らかにし、予測分析を脆弱性インテリジェンスワークフローに統合するための実践的な指針を提供する。
English
Understanding and anticipating vulnerability-related activity is a major challenge in cyber threat intelligence. This work investigates whether vulnerability sightings, such as proof-of-concept releases, detection templates, or online discussions, can be forecast over time. Building on our earlier work on VLAI, a transformer-based model that predicts vulnerability severity from textual descriptions, we examine whether severity scores can improve time-series forecasting as exogenous variables. We evaluate several approaches for short-term forecasting of sightings per vulnerability. First, we test SARIMAX models with and without log(x+1) transformations and VLAI-derived severity inputs. Although these adjustments provide limited improvements, SARIMAX remains poorly suited to sparse, short, and bursty vulnerability data. In practice, forecasts often produce overly wide confidence intervals and sometimes unrealistic negative values. To better capture the discrete and event-driven nature of sightings, we then explore count-based methods such as Poisson regression. Early results show that these models produce more stable and interpretable forecasts, especially when sightings are aggregated weekly. We also discuss simpler operational alternatives, including exponential decay functions for short forecasting horizons, to estimate future activity without requiring long historical series. Overall, this study highlights both the potential and the limitations of forecasting rare and bursty cyber events, and provides practical guidance for integrating predictive analytics into vulnerability intelligence workflows.
PDF12April 22, 2026