Modélisation des observations de vulnérabilités rares et groupées : Prévision sous contrainte de données

Résumé

Comprendre et anticiper l’activité liée aux vulnérabilités constitue un enjeu majeur du renseignement sur les cybermenaces. Ce travail examine s’il est possible de prévoir dans le temps les observations de vulnérabilités, telles que les publications de preuves de concept, les modèles de détection ou les discussions en ligne. En nous appuyant sur nos travaux antérieurs concernant VLAI, un modèle basé sur un transformateur qui prédit la sévérité des vulnérabilités à partir de descriptions textuelles, nous étudions si les scores de sévérité peuvent améliorer la prévision par séries temporelles en tant que variables exogènes. Nous évaluons plusieurs approches pour la prévision à court terme du nombre d’observations par vulnérabilité. Premièrement, nous testons des modèles SARIMAX avec et sans transformations log(x+1) et avec des entrées de sévérité dérivées de VLAI. Bien que ces ajustements n’apportent que des améliorations limitées, SARIMAX reste peu adapté aux données de vulnérabilités, souvent rares, courtes et sporadiques. En pratique, les prévisions produisent souvent des intervalles de confiance excessivement larges et parfois des valeurs négatives irréalistes. Pour mieux capturer la nature discrète et événementielle des observations, nous explorons ensuite des méthodes basées sur les dénombrements, telles que la régression de Poisson. Les premiers résultats montrent que ces modèles produisent des prévisions plus stables et interprétables, en particulier lorsque les observations sont agrégées hebdomadairement. Nous discutons également d’alternatives opérationnelles plus simples, incluant des fonctions de décroissance exponentielle pour des horizons de prévision courts, afin d’estimer l’activité future sans nécessiter de longues séries historiques. Dans l’ensemble, cette étude souligne à la fois le potentiel et les limites de la prévision d’événements cyber rares et sporadiques, et fournit des conseils pratiques pour intégrer l’analyse prédictive dans les flux de travail du renseignement sur les vulnérabilités.

English

Understanding and anticipating vulnerability-related activity is a major challenge in cyber threat intelligence. This work investigates whether vulnerability sightings, such as proof-of-concept releases, detection templates, or online discussions, can be forecast over time. Building on our earlier work on VLAI, a transformer-based model that predicts vulnerability severity from textual descriptions, we examine whether severity scores can improve time-series forecasting as exogenous variables. We evaluate several approaches for short-term forecasting of sightings per vulnerability. First, we test SARIMAX models with and without log(x+1) transformations and VLAI-derived severity inputs. Although these adjustments provide limited improvements, SARIMAX remains poorly suited to sparse, short, and bursty vulnerability data. In practice, forecasts often produce overly wide confidence intervals and sometimes unrealistic negative values. To better capture the discrete and event-driven nature of sightings, we then explore count-based methods such as Poisson regression. Early results show that these models produce more stable and interpretable forecasts, especially when sightings are aggregated weekly. We also discuss simpler operational alternatives, including exponential decay functions for short forecasting horizons, to estimate future activity without requiring long historical series. Overall, this study highlights both the potential and the limitations of forecasting rare and bursty cyber events, and provides practical guidance for integrating predictive analytics into vulnerability intelligence workflows.

Modélisation des observations de vulnérabilités rares et groupées : Prévision sous contrainte de données

Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Résumé

Support