Modellierung spärlicher und gehäuft auftretender Sichtungen von Sicherheitslücken: Prognosen unter Datenbeschränkungen

Zusammenfassung

Das Verständnis und die Antizipation von Aktivitäten im Zusammenhang mit Schwachstellen ist eine große Herausforderung in der Cyber-Bedrohungsanalyse. Diese Arbeit untersucht, ob Schwachstellenmeldungen, wie die Veröffentlichung von Proof-of-Concepts, Erkennungsregeln oder Online-Diskussionen, über die Zeit hinweg prognostiziert werden können. Aufbauend auf unserer früheren Arbeit zu VLAI, einem transformerbasierten Modell, das die Schwere von Schwachstellen aus Textbeschreibungen vorhersagt, untersuchen wir, ob Schweregrad-Scores die Zeitreihenprognose als exogene Variablen verbessern können. Wir bewerten mehrere Ansätze für die kurzfristige Prognose von Meldungen pro Schwachstelle. Zunächst testen wir SARIMAX-Modelle mit und ohne log(x+1)-Transformationen und VLAI-basierten Schweregrad-Eingaben. Obwohl diese Anpassungen nur begrenzte Verbesserungen bringen, bleibt SARIMAX für sporadische, kurze und sprunghafte Schwachstellendaten schlecht geeignet. In der Praxis erzeugen die Prognosen oft zu breite Konfidenzintervalle und manchmal unrealistische negative Werte. Um die diskrete und ereignisgesteuerte Natur der Meldungen besser zu erfassen, untersuchen wir anschließend zählbasierte Methoden wie die Poisson-Regression. Erste Ergebnisse zeigen, dass diese Modelle stabilere und besser interpretierbare Prognosen liefern, insbesondere wenn Meldungen wöchentlich aggregiert werden. Wir diskutieren auch einfachere operative Alternativen, wie exponentielle Abklingfunktionen für kurze Prognosehorizonte, um zukünftige Aktivitäten abzuschätzen, ohne lange historische Reihen zu benötigen. Insgesamt unterstreicht diese Studie sowohl das Potenzial als auch die Grenzen der Prognose seltener und sprunghafter Cyber-Ereignisse und bietet praktische Leitlinien für die Integration prädiktiver Analysen in Schwachstellen-Intelligence-Workflows.

English

Understanding and anticipating vulnerability-related activity is a major challenge in cyber threat intelligence. This work investigates whether vulnerability sightings, such as proof-of-concept releases, detection templates, or online discussions, can be forecast over time. Building on our earlier work on VLAI, a transformer-based model that predicts vulnerability severity from textual descriptions, we examine whether severity scores can improve time-series forecasting as exogenous variables. We evaluate several approaches for short-term forecasting of sightings per vulnerability. First, we test SARIMAX models with and without log(x+1) transformations and VLAI-derived severity inputs. Although these adjustments provide limited improvements, SARIMAX remains poorly suited to sparse, short, and bursty vulnerability data. In practice, forecasts often produce overly wide confidence intervals and sometimes unrealistic negative values. To better capture the discrete and event-driven nature of sightings, we then explore count-based methods such as Poisson regression. Early results show that these models produce more stable and interpretable forecasts, especially when sightings are aggregated weekly. We also discuss simpler operational alternatives, including exponential decay functions for short forecasting horizons, to estimate future activity without requiring long historical series. Overall, this study highlights both the potential and the limitations of forecasting rare and bursty cyber events, and provides practical guidance for integrating predictive analytics into vulnerability intelligence workflows.

Modellierung spärlicher und gehäuft auftretender Sichtungen von Sicherheitslücken: Prognosen unter Datenbeschränkungen

Modeling Sparse and Bursty Vulnerability Sightings: Forecasting Under Data Constraints

Zusammenfassung

Support