Modellering van Schaarste en Uitbarstingen in Kwetsbaarheidsdetecties: Voorspelling onder Databeperkingen

Samenvatting

Het begrijpen en anticiperen van kwetsbaarheidsgerelateerde activiteit vormt een grote uitdaging binnen cyberdreigingsinformatie. Dit onderzoek gaat na of waarnemingen van kwetsbaarheden, zoals de publicatie van proof-of-concepts, detectietemplates of online discussies, in de tijd kunnen worden voorspeld. Voortbordurend op ons eerdere werk aan VLAI, een transformer-gebaseerd model dat de ernst van kwetsbaarheden uit tekstbeschrijvingen voorspelt, onderzoeken we of ernstscore kunnen bijdragen aan tijdreeksvoorspelling als exogene variabelen. We evalueren verschillende benaderingen voor kortetermijnvoorspelling van waarnemingen per kwetsbaarheid. Eerst testen we SARIMAX-modellen met en zonder log(x+1)-transformaties en VLAI-afgeleide ernstinvoeren. Hoewel deze aanpassingen beperkte verbeteringen bieden, blijft SARIMAX slecht geschikt voor schaarse, korte en bursty kwetsbaarheidsdata. In de praktijk produceren voorspellingen vaak te brede betrouwbaarheidsintervallen en soms onrealistische negatieve waarden. Om het discrete en gebeurtenisgestuurde karakter van waarnemingen beter te vatten, verkennen we vervolgens op tellingen gebaseerde methoden zoals Poisson-regressie. Vroege resultaten tonen aan dat deze modellen stabielere en interpreteerbaare voorspellingen produceren, vooral wanneer waarnemingen wekelijks worden geaggregeerd. We bespreken ook eenvoudigere operationele alternatieven, zoals exponentiële vervalfuncties voor korte voorspellingshorizons, om toekomstige activiteit in te schatten zonder lange historische reeksen. Al met al belicht deze studie zowel de potentie als de beperkingen van het voorspellen van zeldzame en bursty cybergebeurtenissen, en biedt het praktische richtlijnen voor het integreren van voorspellende analyses in kwetsbaarheidsinformatieworkflows.

English

Understanding and anticipating vulnerability-related activity is a major challenge in cyber threat intelligence. This work investigates whether vulnerability sightings, such as proof-of-concept releases, detection templates, or online discussions, can be forecast over time. Building on our earlier work on VLAI, a transformer-based model that predicts vulnerability severity from textual descriptions, we examine whether severity scores can improve time-series forecasting as exogenous variables. We evaluate several approaches for short-term forecasting of sightings per vulnerability. First, we test SARIMAX models with and without log(x+1) transformations and VLAI-derived severity inputs. Although these adjustments provide limited improvements, SARIMAX remains poorly suited to sparse, short, and bursty vulnerability data. In practice, forecasts often produce overly wide confidence intervals and sometimes unrealistic negative values. To better capture the discrete and event-driven nature of sightings, we then explore count-based methods such as Poisson regression. Early results show that these models produce more stable and interpretable forecasts, especially when sightings are aggregated weekly. We also discuss simpler operational alternatives, including exponential decay functions for short forecasting horizons, to estimate future activity without requiring long historical series. Overall, this study highlights both the potential and the limitations of forecasting rare and bursty cyber events, and provides practical guidance for integrating predictive analytics into vulnerability intelligence workflows.

Modellering van Schaarste en Uitbarstingen in Kwetsbaarheidsdetecties: Voorspelling onder Databeperkingen

Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Samenvatting

Support