Prediciendo lo impredecible: Pronósticos reproducibles con BiLSTM de los conteos de incidentes en la Base de Datos Global de Terrorismo (GTD)
Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Counts in the Global Terrorism Database (GTD)
October 16, 2025
Autores: Oluwasegun Adegoke
cs.AI
Resumen
Estudiamos la predicción a corto plazo de los recuentos semanales de incidentes terroristas utilizando la Base de Datos Global de Terrorismo (GTD, 1970-2016). Construimos una pipeline reproducible con divisiones temporales fijas y evaluamos una LSTM Bidireccional (BiLSTM) frente a anclajes clásicos sólidos (naive estacional, lineal/ARIMA) y una línea de base profunda de LSTM-Atención. En el conjunto de prueba reservado, la BiLSTM alcanza un RMSE de 6.38, superando a LSTM-Atención (9.19; +30.6%) y a una línea de base de regresión lineal con retraso (+35.4% de mejora en RMSE), con mejoras paralelas en MAE y MAPE. Las ablaciones que varían la memoria temporal, la longitud del historial de entrenamiento, la granularidad espacial, el tamaño de retrospectiva y los grupos de características muestran que los modelos entrenados con datos históricos largos generalizan mejor; una retrospectiva moderada (20-30 semanas) proporciona un contexto sólido; y la codificación bidireccional es crucial para capturar tanto los patrones de acumulación como los de consecuencias dentro de la ventana. El análisis de grupos de características indica que la estructura a corto plazo (recuentos retrasados y estadísticas móviles) contribuye más, con características geográficas y de víctimas añadiendo un incremento adicional. Publicamos código, configuraciones y tablas de resultados compactas, y proporcionamos un documento de datos/ética que documenta la licencia de GTD y su uso exclusivo para investigación. En general, el estudio ofrece una referencia transparente y superadora de líneas de base para la predicción de incidentes en GTD.
English
We study short-horizon forecasting of weekly terrorism incident counts using
the Global Terrorism Database (GTD, 1970--2016). We build a reproducible
pipeline with fixed time-based splits and evaluate a Bidirectional LSTM
(BiLSTM) against strong classical anchors (seasonal-naive, linear/ARIMA) and a
deep LSTM-Attention baseline. On the held-out test set, the BiLSTM attains RMSE
6.38, outperforming LSTM-Attention (9.19; +30.6\%) and a linear lag-regression
baseline (+35.4\% RMSE gain), with parallel improvements in MAE and MAPE.
Ablations varying temporal memory, training-history length, spatial grain,
lookback size, and feature groups show that models trained on long historical
data generalize best; a moderate lookback (20--30 weeks) provides strong
context; and bidirectional encoding is critical for capturing both build-up and
aftermath patterns within the window. Feature-group analysis indicates that
short-horizon structure (lagged counts and rolling statistics) contributes
most, with geographic and casualty features adding incremental lift. We release
code, configs, and compact result tables, and provide a data/ethics statement
documenting GTD licensing and research-only use. Overall, the study offers a
transparent, baseline-beating reference for GTD incident forecasting.