Предсказание непредсказуемого: воспроизводимое прогнозирование количества инцидентов с использованием BiLSTM в Глобальной базе данных о терроризме (GTD)
Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Counts in the Global Terrorism Database (GTD)
October 16, 2025
Авторы: Oluwasegun Adegoke
cs.AI
Аннотация
Мы исследуем краткосрочное прогнозирование еженедельного количества террористических инцидентов с использованием Глобальной базы данных о терроризме (GTD, 1970–2016). Мы создаем воспроизводимый конвейер с фиксированными временными разбиениями и сравниваем двунаправленную LSTM (BiLSTM) с сильными классическими методами (сезонное наивное прогнозирование, линейная регрессия/ARIMA) и базовой моделью LSTM с механизмом внимания. На тестовом наборе данных BiLSTM достигает RMSE 6.38, превосходя LSTM с вниманием (9.19; +30.6%) и базовую линейную регрессию с лагами (+35.4% улучшение RMSE), с параллельным улучшением MAE и MAPE. Анализ с варьированием временной памяти, длины истории обучения, пространственного масштаба, размера окна ретроспективы и групп признаков показывает, что модели, обученные на длинных исторических данных, обобщают лучше всего; умеренное окно ретроспективы (20–30 недель) обеспечивает сильный контекст; а двунаправленное кодирование критически важно для захвата как нарастающих, так и последующих паттернов в рамках окна. Анализ групп признаков указывает на то, что краткосрочная структура (лаговые значения и скользящие статистики) вносит наибольший вклад, а географические признаки и данные о жертвах добавляют дополнительный эффект. Мы публикуем код, конфигурации и компактные таблицы результатов, а также предоставляем документ с заявлением о данных и этике, описывающий лицензирование GTD и использование исключительно в исследовательских целях. В целом, исследование предлагает прозрачный и превосходящий базовые методы подход для прогнозирования инцидентов в GTD.
English
We study short-horizon forecasting of weekly terrorism incident counts using
the Global Terrorism Database (GTD, 1970--2016). We build a reproducible
pipeline with fixed time-based splits and evaluate a Bidirectional LSTM
(BiLSTM) against strong classical anchors (seasonal-naive, linear/ARIMA) and a
deep LSTM-Attention baseline. On the held-out test set, the BiLSTM attains RMSE
6.38, outperforming LSTM-Attention (9.19; +30.6\%) and a linear lag-regression
baseline (+35.4\% RMSE gain), with parallel improvements in MAE and MAPE.
Ablations varying temporal memory, training-history length, spatial grain,
lookback size, and feature groups show that models trained on long historical
data generalize best; a moderate lookback (20--30 weeks) provides strong
context; and bidirectional encoding is critical for capturing both build-up and
aftermath patterns within the window. Feature-group analysis indicates that
short-horizon structure (lagged counts and rolling statistics) contributes
most, with geographic and casualty features adding incremental lift. We release
code, configs, and compact result tables, and provide a data/ethics statement
documenting GTD licensing and research-only use. Overall, the study offers a
transparent, baseline-beating reference for GTD incident forecasting.