Modelado de Avistamientos de Vulnerabilidades Dispersos y Explosivos: Pronóstico bajo Restricciones de Datos

Resumen

Comprender y anticipar la actividad relacionada con vulnerabilidades es un gran desafío en la inteligencia sobre amenazas cibernéticas. Este trabajo investiga si los avistamientos de vulnerabilidades, como las publicaciones de pruebas de concepto, las plantillas de detección o las discusiones en línea, pueden pronosticarse a lo largo del tiempo. Partiendo de nuestro trabajo anterior sobre VLAI, un modelo basado en transformers que predice la gravedad de las vulnerabilidades a partir de descripciones textuales, examinamos si las puntuaciones de gravedad pueden mejorar la predicción de series temporales como variables exógenas. Evaluamos varios enfoques para la predicción a corto plazo de avistamientos por vulnerabilidad. Primero, probamos modelos SARIMAX con y sin transformaciones log(x+1) e inputs de gravedad derivados de VLAI. Aunque estos ajustes proporcionan mejoras limitadas, SARIMAX sigue siendo poco adecuado para datos de vulnerabilidades escasos, cortos y con picos de actividad. En la práctica, los pronósticos a menudo producen intervalos de confianza excesivamente amplios y, a veces, valores negativos poco realistas. Para capturar mejor la naturaleza discreta y impulsada por eventos de los avistamientos, exploramos luego métodos basados en conteo, como la regresión de Poisson. Los primeros resultados muestran que estos modelos producen pronósticos más estables e interpretables, especialmente cuando los avistamientos se agregan semanalmente. También discutimos alternativas operativas más simples, incluidas las funciones de decaimiento exponencial para horizontes de pronóstico cortos, para estimar la actividad futura sin requerir largas series históricas. En general, este estudio resalta tanto el potencial como las limitaciones de pronosticar eventos cibernéticos raros y con picos de actividad, y proporciona orientación práctica para integrar análisis predictivos en los flujos de trabajo de inteligencia de vulnerabilidades.

English

Understanding and anticipating vulnerability-related activity is a major challenge in cyber threat intelligence. This work investigates whether vulnerability sightings, such as proof-of-concept releases, detection templates, or online discussions, can be forecast over time. Building on our earlier work on VLAI, a transformer-based model that predicts vulnerability severity from textual descriptions, we examine whether severity scores can improve time-series forecasting as exogenous variables. We evaluate several approaches for short-term forecasting of sightings per vulnerability. First, we test SARIMAX models with and without log(x+1) transformations and VLAI-derived severity inputs. Although these adjustments provide limited improvements, SARIMAX remains poorly suited to sparse, short, and bursty vulnerability data. In practice, forecasts often produce overly wide confidence intervals and sometimes unrealistic negative values. To better capture the discrete and event-driven nature of sightings, we then explore count-based methods such as Poisson regression. Early results show that these models produce more stable and interpretable forecasts, especially when sightings are aggregated weekly. We also discuss simpler operational alternatives, including exponential decay functions for short forecasting horizons, to estimate future activity without requiring long historical series. Overall, this study highlights both the potential and the limitations of forecasting rare and bursty cyber events, and provides practical guidance for integrating predictive analytics into vulnerability intelligence workflows.

Modelado de Avistamientos de Vulnerabilidades Dispersos y Explosivos: Pronóstico bajo Restricciones de Datos

Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Resumen

Support