Моделирование разреженных и кластерных наблюдений уязвимостей: прогнозирование при ограничениях данных

Аннотация

Понимание и прогнозирование активности, связанной с уязвимостями, является одной из основных проблем в области киберразведки. Данное исследование изучает возможность прогнозирования во времени таких событий, как публикация доказательств концепции, шаблонов обнаружения или онлайн-обсуждений, связанных с уязвимостями. Основываясь на нашей предыдущей работе над VLAI — трансформерной моделью, предсказывающей серьезность уязвимости по текстовым описаниям, — мы исследуем, могут ли оценки серьезности улучшить прогнозирование временных рядов в качестве экзогенных переменных. Мы оцениваем несколько подходов к краткосрочному прогнозированию количества событий на одну уязвимость. Во-первых, мы тестируем модели SARIMAX с преобразованием log(x+1) и без него, а также с использованием показателей серьезности, полученных от VLAI. Хотя эти корректировки дают ограниченное улучшение, SARIMAX в целом плохо подходит для разреженных, коротких и всплесковых данных по уязвимостям. На практике прогнозы часто дают излишне широкие доверительные интервалы, а иногда и нереалистичные отрицательные значения. Для лучшего учета дискретного и событийно-ориентированного характера наблюдений мы затем исследуем методы, основанные на моделировании счетов, такие как регрессия Пуассона. Первые результаты показывают, что эти модели дают более стабильные и интерпретируемые прогнозы, особенно когда данные агрегируются еженедельно. Мы также рассматриваем более простые операционные альтернативы, включая функции экспоненциального затухания для коротких горизонтов прогнозирования, чтобы оценивать будущую активность без необходимости в длинных исторических рядах. В целом, данное исследование подчеркивает как потенциал, так и ограничения прогнозирования редких и всплесковых киберсобытий и предлагает практические рекомендации по интеграции прогнозной аналитики в рабочие процессы анализа уязвимостей.

English

Understanding and anticipating vulnerability-related activity is a major challenge in cyber threat intelligence. This work investigates whether vulnerability sightings, such as proof-of-concept releases, detection templates, or online discussions, can be forecast over time. Building on our earlier work on VLAI, a transformer-based model that predicts vulnerability severity from textual descriptions, we examine whether severity scores can improve time-series forecasting as exogenous variables. We evaluate several approaches for short-term forecasting of sightings per vulnerability. First, we test SARIMAX models with and without log(x+1) transformations and VLAI-derived severity inputs. Although these adjustments provide limited improvements, SARIMAX remains poorly suited to sparse, short, and bursty vulnerability data. In practice, forecasts often produce overly wide confidence intervals and sometimes unrealistic negative values. To better capture the discrete and event-driven nature of sightings, we then explore count-based methods such as Poisson regression. Early results show that these models produce more stable and interpretable forecasts, especially when sightings are aggregated weekly. We also discuss simpler operational alternatives, including exponential decay functions for short forecasting horizons, to estimate future activity without requiring long historical series. Overall, this study highlights both the potential and the limitations of forecasting rare and bursty cyber events, and provides practical guidance for integrating predictive analytics into vulnerability intelligence workflows.

Моделирование разреженных и кластерных наблюдений уязвимостей: прогнозирование при ограничениях данных

Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Аннотация

Support