Viendo la aguja en el pajar: hacia la localización de anomalías en instancias de logs con supervisión débil mediante perturbación contrafactual

Resumen

La detección de anomalías en registros es una tarea crítica para la operación de sistemas y la garantía de seguridad. Sin embargo, en sistemas en red a gran escala, los datos de registro se generan masivamente, mientras que las anotaciones a nivel de instancia son prohibitivamente costosas, lo que plantea grandes dificultades para la localización detallada de anomalías. Para abordar este desafío, proponemos LogMILP (Localización de anomalías en registros basada en Aprendizaje Multi-Instancia mejorado con prototipos y Perturbación), un marco de aprendizaje débilmente supervisado que permite tanto la detección de anomalías a nivel de conjunto como la localización de anomalías a nivel de instancia utilizando solo etiquetas a nivel de conjunto. Nuestro método guía al modelo para identificar las entradas de registro críticas mediante un modelado estructural guiado por prototipos con regularización de consistencia de perturbación contrafactual, mejorando así la fiabilidad e interpretabilidad de la localización bajo supervisión de grano grueso. Los resultados experimentales en tres conjuntos de datos públicos demuestran que LogMILP logra un rendimiento competitivo en detección, al tiempo que proporciona una localización a nivel de instancia significativamente más fiable. Nuestro código está disponible como código abierto en https://github.com/YUK1207/LogMILP.

English

Log anomaly detection is a critical task for system operations and security assurance. However, in networked systems at scale, log data are generated at massive scale while instance-level annotations are prohibitively expensive, posing great difficulties to fine-grained anomaly localization. To address this challenge, we propose LogMILP (Log anomaly localization based on Multi-Instance Learning enhanced by prototypes and Perturbation), a weakly supervised framework that enables both bag-level anomaly detection and instance-level anomaly localization using only bag-level labels. Our method guides the model to pinpoint the critical log entries using prototype-guided structural modeling with counterfactual perturbation consistency regularization, thereby improving localization reliability and interpretability under coarse-grained supervision. Experimental results on three public datasets demonstrate that LogMILP achieves competitive detection performance while yielding significantly more reliable instance-level localization. Our code is open-sourced at https://github.com/YUK1207/LogMILP.