Предсказание непредсказуемого: воспроизводимое прогнозирование количества инцидентов с использованием BiLSTM в Глобальной базе данных о терроризме (GTD)

Аннотация

Мы исследуем краткосрочное прогнозирование еженедельного количества террористических инцидентов с использованием Глобальной базы данных о терроризме (GTD, 1970–2016). Мы создаем воспроизводимый конвейер с фиксированными временными разбиениями и сравниваем двунаправленную LSTM (BiLSTM) с сильными классическими методами (сезонное наивное прогнозирование, линейная регрессия/ARIMA) и базовой моделью LSTM с механизмом внимания. На тестовом наборе данных BiLSTM достигает RMSE 6.38, превосходя LSTM с вниманием (9.19; +30.6%) и базовую линейную регрессию с лагами (+35.4% улучшение RMSE), с параллельным улучшением MAE и MAPE. Анализ с варьированием временной памяти, длины истории обучения, пространственного масштаба, размера окна ретроспективы и групп признаков показывает, что модели, обученные на длинных исторических данных, обобщают лучше всего; умеренное окно ретроспективы (20–30 недель) обеспечивает сильный контекст; а двунаправленное кодирование критически важно для захвата как нарастающих, так и последующих паттернов в рамках окна. Анализ групп признаков указывает на то, что краткосрочная структура (лаговые значения и скользящие статистики) вносит наибольший вклад, а географические признаки и данные о жертвах добавляют дополнительный эффект. Мы публикуем код, конфигурации и компактные таблицы результатов, а также предоставляем документ с заявлением о данных и этике, описывающий лицензирование GTD и использование исключительно в исследовательских целях. В целом, исследование предлагает прозрачный и превосходящий базовые методы подход для прогнозирования инцидентов в GTD.

English

We study short-horizon forecasting of weekly terrorism incident counts using the Global Terrorism Database (GTD, 1970--2016). We build a reproducible pipeline with fixed time-based splits and evaluate a Bidirectional LSTM (BiLSTM) against strong classical anchors (seasonal-naive, linear/ARIMA) and a deep LSTM-Attention baseline. On the held-out test set, the BiLSTM attains RMSE 6.38, outperforming LSTM-Attention (9.19; +30.6\%) and a linear lag-regression baseline (+35.4\% RMSE gain), with parallel improvements in MAE and MAPE. Ablations varying temporal memory, training-history length, spatial grain, lookback size, and feature groups show that models trained on long historical data generalize best; a moderate lookback (20--30 weeks) provides strong context; and bidirectional encoding is critical for capturing both build-up and aftermath patterns within the window. Feature-group analysis indicates that short-horizon structure (lagged counts and rolling statistics) contributes most, with geographic and casualty features adding incremental lift. We release code, configs, and compact result tables, and provide a data/ethics statement documenting GTD licensing and research-only use. Overall, the study offers a transparent, baseline-beating reference for GTD incident forecasting.

Предсказание непредсказуемого: воспроизводимое прогнозирование количества инцидентов с использованием BiLSTM в Глобальной базе данных о терроризме (GTD)

Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Counts in the Global Terrorism Database (GTD)

Аннотация

Support