Prevedere l'Imprevedibile: Previsioni Riproducibili con BiLSTM sui Conteggi di Incidenti nel Global Terrorism Database (GTD)
Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Counts in the Global Terrorism Database (GTD)
October 16, 2025
Autori: Oluwasegun Adegoke
cs.AI
Abstract
Studiamo la previsione a breve orizzonte del numero settimanale di incidenti terroristici utilizzando il Global Terrorism Database (GTD, 1970-2016). Costruiamo una pipeline riproducibile con suddivisioni temporali fisse e valutiamo una rete Bidirectional LSTM (BiLSTM) rispetto a robusti modelli classici di riferimento (seasonal-naive, lineare/ARIMA) e a una baseline profonda LSTM-Attention. Sul set di test tenuto da parte, la BiLSTM raggiunge un RMSE di 6.38, superando LSTM-Attention (9.19; +30.6%) e una baseline di regressione lineare con ritardi (+35.4% di guadagno in RMSE), con miglioramenti paralleli in MAE e MAPE. Le analisi di ablazione che variano la memoria temporale, la lunghezza della storia di addestramento, la granularità spaziale, la dimensione del lookback e i gruppi di feature mostrano che i modelli addestrati su dati storici lunghi generalizzano meglio; un lookback moderato (20-30 settimane) fornisce un contesto solido; e la codifica bidirezionale è fondamentale per catturare sia i modelli di accumulo che quelli di conseguenza all'interno della finestra. L'analisi dei gruppi di feature indica che la struttura a breve orizzonte (conteggi ritardati e statistiche mobili) contribuisce maggiormente, con le feature geografiche e relative alle vittime che aggiungono un incremento incrementale. Rilasciamo codice, configurazioni e tabelle di risultati compatte, e forniamo un documento di dichiarazione dati/etica che documenta la licenza GTD e l'uso esclusivo per la ricerca. Nel complesso, lo studio offre un riferimento trasparente e superiore alle baseline per la previsione degli incidenti nel GTD.
English
We study short-horizon forecasting of weekly terrorism incident counts using
the Global Terrorism Database (GTD, 1970--2016). We build a reproducible
pipeline with fixed time-based splits and evaluate a Bidirectional LSTM
(BiLSTM) against strong classical anchors (seasonal-naive, linear/ARIMA) and a
deep LSTM-Attention baseline. On the held-out test set, the BiLSTM attains RMSE
6.38, outperforming LSTM-Attention (9.19; +30.6\%) and a linear lag-regression
baseline (+35.4\% RMSE gain), with parallel improvements in MAE and MAPE.
Ablations varying temporal memory, training-history length, spatial grain,
lookback size, and feature groups show that models trained on long historical
data generalize best; a moderate lookback (20--30 weeks) provides strong
context; and bidirectional encoding is critical for capturing both build-up and
aftermath patterns within the window. Feature-group analysis indicates that
short-horizon structure (lagged counts and rolling statistics) contributes
most, with geographic and casualty features adding incremental lift. We release
code, configs, and compact result tables, and provide a data/ethics statement
documenting GTD licensing and research-only use. Overall, the study offers a
transparent, baseline-beating reference for GTD incident forecasting.