Prevendo o Imprevisível: Previsão Reprodutível com BiLSTM de Contagens de Incidentes no Banco de Dados Global de Terrorismo (GTD)
Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Counts in the Global Terrorism Database (GTD)
October 16, 2025
Autores: Oluwasegun Adegoke
cs.AI
Resumo
Estudamos a previsão de curto prazo de contagens semanais de incidentes terroristas utilizando o Global Terrorism Database (GTD, 1970--2016). Construímos um pipeline reproduzível com divisões temporais fixas e avaliamos uma LSTM Bidirecional (BiLSTM) em comparação com âncoras clássicas robustas (sazonal-ingênua, linear/ARIMA) e uma linha de base profunda LSTM-Atenção. No conjunto de teste reservado, a BiLSTM atinge um RMSE de 6,38, superando a LSTM-Atenção (9,19; +30,6\%) e uma linha de base de regressão linear com defasagem (+35,4\% de ganho no RMSE), com melhorias paralelas em MAE e MAPE. Ablações variando a memória temporal, o comprimento do histórico de treinamento, a granularidade espacial, o tamanho do lookback e os grupos de características mostram que os modelos treinados com dados históricos longos generalizam melhor; um lookback moderado (20--30 semanas) fornece um contexto forte; e a codificação bidirecional é crucial para capturar padrões de preparação e consequências dentro da janela. A análise de grupos de características indica que a estrutura de curto prazo (contagens defasadas e estatísticas móveis) contribui mais, com características geográficas e de vítimas adicionando ganhos incrementais. Disponibilizamos código, configurações e tabelas compactas de resultados, e fornecemos um documento de declaração de dados/ética documentando o licenciamento do GTD e o uso exclusivo para pesquisa. No geral, o estudo oferece uma referência transparente e superadora de linhas de base para a previsão de incidentes no GTD.
English
We study short-horizon forecasting of weekly terrorism incident counts using
the Global Terrorism Database (GTD, 1970--2016). We build a reproducible
pipeline with fixed time-based splits and evaluate a Bidirectional LSTM
(BiLSTM) against strong classical anchors (seasonal-naive, linear/ARIMA) and a
deep LSTM-Attention baseline. On the held-out test set, the BiLSTM attains RMSE
6.38, outperforming LSTM-Attention (9.19; +30.6\%) and a linear lag-regression
baseline (+35.4\% RMSE gain), with parallel improvements in MAE and MAPE.
Ablations varying temporal memory, training-history length, spatial grain,
lookback size, and feature groups show that models trained on long historical
data generalize best; a moderate lookback (20--30 weeks) provides strong
context; and bidirectional encoding is critical for capturing both build-up and
aftermath patterns within the window. Feature-group analysis indicates that
short-horizon structure (lagged counts and rolling statistics) contributes
most, with geographic and casualty features adding incremental lift. We release
code, configs, and compact result tables, and provide a data/ethics statement
documenting GTD licensing and research-only use. Overall, the study offers a
transparent, baseline-beating reference for GTD incident forecasting.