Modelagem de Observações de Vulnerabilidades Esparsas e Sazonalmente Concentradas: Previsão sob Restrições de Dados

Resumo

Compreender e antecipar atividades relacionadas a vulnerabilidades é um grande desafio na área de inteligência contra ameaças cibernéticas. Este trabalho investiga se a observação de vulnerabilidades, como lançamentos de prova de conceito, modelos de detecção ou discussões online, pode ser prevista ao longo do tempo. Com base no nosso trabalho anterior sobre o VLAI, um modelo baseado em *transformers* que prevê a gravidade de vulnerabilidades a partir de descrições textuais, examinamos se as pontuações de gravidade podem melhorar a previsão de séries temporais como variáveis exógenas. Avaliamos várias abordagens para a previsão de curto prazo de observações por vulnerabilidade. Primeiro, testamos modelos SARIMAX com e sem transformações log(x+1) e entradas de gravidade derivadas do VLAI. Embora esses ajustes ofereçam melhorias limitadas, o SARIMAX permanece pouco adequado para dados de vulnerabilidade esparsos, curtos e com picos de atividade. Na prática, as previsões frequentemente produzem intervalos de confiança excessivamente amplos e, por vezes, valores negativos irreais. Para capturar melhor a natureza discreta e orientada a eventos das observações, exploramos em seguida métodos baseados em contagem, como a regressão de Poisson. Resultados iniciais mostram que esses modelos produzem previsões mais estáveis e interpretáveis, especialmente quando as observações são agregadas semanalmente. Também discutimos alternativas operacionais mais simples, incluindo funções de decaimento exponencial para horizontes de previsão curtos, para estimar a atividade futura sem exigir longas séries históricas. No geral, este estudo destaca tanto o potencial quanto as limitações da previsão de eventos cibernéticos raros e com picos de atividade, e fornece orientações práticas para integrar análises preditivas nos fluxos de trabalho de inteligência de vulnerabilidades.

English

Understanding and anticipating vulnerability-related activity is a major challenge in cyber threat intelligence. This work investigates whether vulnerability sightings, such as proof-of-concept releases, detection templates, or online discussions, can be forecast over time. Building on our earlier work on VLAI, a transformer-based model that predicts vulnerability severity from textual descriptions, we examine whether severity scores can improve time-series forecasting as exogenous variables. We evaluate several approaches for short-term forecasting of sightings per vulnerability. First, we test SARIMAX models with and without log(x+1) transformations and VLAI-derived severity inputs. Although these adjustments provide limited improvements, SARIMAX remains poorly suited to sparse, short, and bursty vulnerability data. In practice, forecasts often produce overly wide confidence intervals and sometimes unrealistic negative values. To better capture the discrete and event-driven nature of sightings, we then explore count-based methods such as Poisson regression. Early results show that these models produce more stable and interpretable forecasts, especially when sightings are aggregated weekly. We also discuss simpler operational alternatives, including exponential decay functions for short forecasting horizons, to estimate future activity without requiring long historical series. Overall, this study highlights both the potential and the limitations of forecasting rare and bursty cyber events, and provides practical guidance for integrating predictive analytics into vulnerability intelligence workflows.

Modelagem de Observações de Vulnerabilidades Esparsas e Sazonalmente Concentradas: Previsão sob Restrições de Dados

Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Resumo

Support