Modellazione di Avvistamenti di Vulnerabilità Sparsi e a Scoppi: Previsioni in Condizioni di Vincoli sui Dati

Abstract

Comprendere e anticipare le attività legate alle vulnerabilità rappresenta una sfida significativa nell'intelligence sulle minacce informatiche. Questo lavoro indaga se gli avvistamenti di vulnerabilità, come il rilascio di proof-of-concept, i template di rilevamento o le discussioni online, possano essere previsti nel tempo. Basandoci sul nostro precedente lavoro su VLAI, un modello basato su transformer che prevede la gravità delle vulnerabilità dalle descrizioni testuali, esaminiamo se i punteggi di gravità possano migliorare le previsioni delle serie temporali come variabili esogene. Valutiamo diversi approcci per la previsione a breve termine degli avvistamenti per vulnerabilità. In primo luogo, testiamo i modelli SARIMAX con e senza trasformazioni log(x+1) e input di gravità derivati da VLAI. Sebbene questi aggiustamenti forniscano miglioramenti limitati, SARIMAX rimane poco adatto a dati di vulnerabilità sporadici, brevi e a picchi. Nella pratica, le previsioni spesso producono intervalli di confidenza eccessivamente ampi e talvolta valori negativi irrealistici. Per catturare meglio la natura discreta ed event-driven degli avvistamenti, esploriamo quindi metodi basati sul conteggio come la regressione di Poisson. I primi risultati mostrano che questi modelli producono previsioni più stabili e interpretabili, specialmente quando gli avvistamenti sono aggregati settimanalmente. Discutiamo anche alternative operative più semplici, incluse funzioni di decadimento esponenziale per orizzonti previsivi brevi, per stimare l'attività futura senza richiedere lunghe serie storiche. Nel complesso, questo studio evidenzia sia il potenziale che i limiti della previsione di eventi informatici rari e a picchi, e fornisce indicazioni pratiche per integrare l'analisi predittiva nei flussi di lavoro dell'intelligence sulle vulnerabilità.

English

Understanding and anticipating vulnerability-related activity is a major challenge in cyber threat intelligence. This work investigates whether vulnerability sightings, such as proof-of-concept releases, detection templates, or online discussions, can be forecast over time. Building on our earlier work on VLAI, a transformer-based model that predicts vulnerability severity from textual descriptions, we examine whether severity scores can improve time-series forecasting as exogenous variables. We evaluate several approaches for short-term forecasting of sightings per vulnerability. First, we test SARIMAX models with and without log(x+1) transformations and VLAI-derived severity inputs. Although these adjustments provide limited improvements, SARIMAX remains poorly suited to sparse, short, and bursty vulnerability data. In practice, forecasts often produce overly wide confidence intervals and sometimes unrealistic negative values. To better capture the discrete and event-driven nature of sightings, we then explore count-based methods such as Poisson regression. Early results show that these models produce more stable and interpretable forecasts, especially when sightings are aggregated weekly. We also discuss simpler operational alternatives, including exponential decay functions for short forecasting horizons, to estimate future activity without requiring long historical series. Overall, this study highlights both the potential and the limitations of forecasting rare and bursty cyber events, and provides practical guidance for integrating predictive analytics into vulnerability intelligence workflows.

Modellazione di Avvistamenti di Vulnerabilità Sparsi e a Scoppi: Previsioni in Condizioni di Vincoli sui Dati

Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Abstract

Support