Vendo a agulha no palheiro: rumo à localização fracamente supervisionada de anomalias em instâncias de log via perturbação contrafactual

Resumo

A detecção de anomalias em logs é uma tarefa crítica para a operação de sistemas e garantia de segurança. No entanto, em sistemas em rede em larga escala, os dados de log são gerados em escala massiva, enquanto as anotações em nível de instância são proibitivamente caras, impondo grandes dificuldades à localização refinada de anomalias. Para enfrentar esse desafio, propomos LogMILP (Localização de anomalias em logs baseada em Aprendizado Multi-Instância aprimorado por protótipos e Perturbação), uma estrutura fracamente supervisionada que possibilita tanto a detecção de anomalias em nível de saco quanto a localização em nível de instância usando apenas rótulos em nível de saco. Nosso método orienta o modelo a identificar as entradas críticas de log por meio de modelagem estrutural guiada por protótipos com regularização de consistência de perturbação contrafactual, melhorando assim a confiabilidade da localização e a interpretabilidade sob supervisão de granulação grossa. Resultados experimentais em três conjuntos de dados públicos demonstram que o LogMILP atinge desempenho competitivo de detecção, ao mesmo tempo que produz localização em nível de instância significativamente mais confiável. Nosso código está disponível em acesso aberto em https://github.com/YUK1207/LogMILP.

English

Log anomaly detection is a critical task for system operations and security assurance. However, in networked systems at scale, log data are generated at massive scale while instance-level annotations are prohibitively expensive, posing great difficulties to fine-grained anomaly localization. To address this challenge, we propose LogMILP (Log anomaly localization based on Multi-Instance Learning enhanced by prototypes and Perturbation), a weakly supervised framework that enables both bag-level anomaly detection and instance-level anomaly localization using only bag-level labels. Our method guides the model to pinpoint the critical log entries using prototype-guided structural modeling with counterfactual perturbation consistency regularization, thereby improving localization reliability and interpretability under coarse-grained supervision. Experimental results on three public datasets demonstrate that LogMILP achieves competitive detection performance while yielding significantly more reliable instance-level localization. Our code is open-sourced at https://github.com/YUK1207/LogMILP.