Prédire l'imprévisible : Prévision reproductible par BiLSTM des décomptes d'incidents dans la base de données mondiale sur le terrorisme (GTD)
Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Counts in the Global Terrorism Database (GTD)
October 16, 2025
papers.authors: Oluwasegun Adegoke
cs.AI
papers.abstract
Nous étudions la prévision à court terme du nombre hebdomadaire d'incidents terroristes en utilisant la Global Terrorism Database (GTD, 1970-2016). Nous construisons un pipeline reproductible avec des découpages temporels fixes et évaluons un réseau LSTM bidirectionnel (BiLSTM) par rapport à des références classiques solides (naïf saisonnier, linéaire/ARIMA) et à un modèle de référence profond LSTM-Attention. Sur l'ensemble de test réservé, le BiLSTM atteint une RMSE de 6,38, surpassant LSTM-Attention (9,19 ; +30,6%) et une régression linéaire avec décalage (+35,4% de gain en RMSE), avec des améliorations parallèles en MAE et MAPE. Des ablations variant la mémoire temporelle, la longueur de l'historique d'entraînement, la granularité spatiale, la taille du lookback et les groupes de caractéristiques montrent que les modèles entraînés sur des données historiques longues généralisent le mieux ; un lookback modéré (20-30 semaines) fournit un contexte solide ; et l'encodage bidirectionnel est crucial pour capturer à la fois les schémas de montée en puissance et de conséquences dans la fenêtre. L'analyse des groupes de caractéristiques indique que la structure à court terme (comptages décalés et statistiques glissantes) contribue le plus, avec les caractéristiques géographiques et relatives aux victimes ajoutant un gain incrémental. Nous publions le code, les configurations et des tableaux de résultats compacts, et fournissons une déclaration sur les données/éthique documentant la licence GTD et l'utilisation à des fins de recherche uniquement. Globalement, l'étude offre une référence transparente et performante pour la prévision des incidents dans la GTD.
English
We study short-horizon forecasting of weekly terrorism incident counts using
the Global Terrorism Database (GTD, 1970--2016). We build a reproducible
pipeline with fixed time-based splits and evaluate a Bidirectional LSTM
(BiLSTM) against strong classical anchors (seasonal-naive, linear/ARIMA) and a
deep LSTM-Attention baseline. On the held-out test set, the BiLSTM attains RMSE
6.38, outperforming LSTM-Attention (9.19; +30.6\%) and a linear lag-regression
baseline (+35.4\% RMSE gain), with parallel improvements in MAE and MAPE.
Ablations varying temporal memory, training-history length, spatial grain,
lookback size, and feature groups show that models trained on long historical
data generalize best; a moderate lookback (20--30 weeks) provides strong
context; and bidirectional encoding is critical for capturing both build-up and
aftermath patterns within the window. Feature-group analysis indicates that
short-horizon structure (lagged counts and rolling statistics) contributes
most, with geographic and casualty features adding incremental lift. We release
code, configs, and compact result tables, and provide a data/ethics statement
documenting GTD licensing and research-only use. Overall, the study offers a
transparent, baseline-beating reference for GTD incident forecasting.