Prediciendo lo impredecible: Pronósticos reproducibles con BiLSTM de los conteos de incidentes en la Base de Datos Global de Terrorismo (GTD)

Resumen

Estudiamos la predicción a corto plazo de los recuentos semanales de incidentes terroristas utilizando la Base de Datos Global de Terrorismo (GTD, 1970-2016). Construimos una pipeline reproducible con divisiones temporales fijas y evaluamos una LSTM Bidireccional (BiLSTM) frente a anclajes clásicos sólidos (naive estacional, lineal/ARIMA) y una línea de base profunda de LSTM-Atención. En el conjunto de prueba reservado, la BiLSTM alcanza un RMSE de 6.38, superando a LSTM-Atención (9.19; +30.6%) y a una línea de base de regresión lineal con retraso (+35.4% de mejora en RMSE), con mejoras paralelas en MAE y MAPE. Las ablaciones que varían la memoria temporal, la longitud del historial de entrenamiento, la granularidad espacial, el tamaño de retrospectiva y los grupos de características muestran que los modelos entrenados con datos históricos largos generalizan mejor; una retrospectiva moderada (20-30 semanas) proporciona un contexto sólido; y la codificación bidireccional es crucial para capturar tanto los patrones de acumulación como los de consecuencias dentro de la ventana. El análisis de grupos de características indica que la estructura a corto plazo (recuentos retrasados y estadísticas móviles) contribuye más, con características geográficas y de víctimas añadiendo un incremento adicional. Publicamos código, configuraciones y tablas de resultados compactas, y proporcionamos un documento de datos/ética que documenta la licencia de GTD y su uso exclusivo para investigación. En general, el estudio ofrece una referencia transparente y superadora de líneas de base para la predicción de incidentes en GTD.

English

We study short-horizon forecasting of weekly terrorism incident counts using the Global Terrorism Database (GTD, 1970--2016). We build a reproducible pipeline with fixed time-based splits and evaluate a Bidirectional LSTM (BiLSTM) against strong classical anchors (seasonal-naive, linear/ARIMA) and a deep LSTM-Attention baseline. On the held-out test set, the BiLSTM attains RMSE 6.38, outperforming LSTM-Attention (9.19; +30.6\%) and a linear lag-regression baseline (+35.4\% RMSE gain), with parallel improvements in MAE and MAPE. Ablations varying temporal memory, training-history length, spatial grain, lookback size, and feature groups show that models trained on long historical data generalize best; a moderate lookback (20--30 weeks) provides strong context; and bidirectional encoding is critical for capturing both build-up and aftermath patterns within the window. Feature-group analysis indicates that short-horizon structure (lagged counts and rolling statistics) contributes most, with geographic and casualty features adding incremental lift. We release code, configs, and compact result tables, and provide a data/ethics statement documenting GTD licensing and research-only use. Overall, the study offers a transparent, baseline-beating reference for GTD incident forecasting.

Prediciendo lo impredecible: Pronósticos reproducibles con BiLSTM de los conteos de incidentes en la Base de Datos Global de Terrorismo (GTD)

Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Counts in the Global Terrorism Database (GTD)

Resumen

Support