Marco de Aprendizaje de Múltiples Instancias con Minería de Instancias Difíciles Enmascaradas para el Análisis de Imágenes de Histopatología en Gigapíxeles
Multiple Instance Learning Framework with Masked Hard Instance Mining for Gigapixel Histopathology Image Analysis
September 15, 2025
Autores: Wenhao Tang, Sheng Huang, Heng Fang, Fengtao Zhou, Bo Liu, Qingshan Liu
cs.AI
Resumen
La digitalización de imágenes patológicas en imágenes de diapositivas completas (WSI, por sus siglas en inglés) de gigapíxeles ha abierto nuevas vías para la Patología Computacional (CPath). Dado que el tejido positivo constituye solo una pequeña fracción de las WSI de gigapíxeles, los métodos existentes de Aprendizaje de Múltiples Instancias (MIL, por sus siglas en inglés) suelen centrarse en identificar instancias destacadas mediante mecanismos de atención. Sin embargo, esto genera un sesgo hacia las instancias fáciles de clasificar, descuidando las más desafiantes. Estudios recientes han demostrado que los ejemplos difíciles son cruciales para modelar con precisión los límites discriminativos. Aplicando esta idea a nivel de instancia, desarrollamos un novedoso marco MIL con minería de instancias difíciles enmascaradas (MHIM-MIL), que utiliza una estructura Siamesa con una restricción de consistencia para explorar las instancias difíciles. Utilizando una probabilidad de instancia consciente de la clase, MHIM-MIL emplea un modelo maestro de momentum para enmascarar instancias destacadas y extraer implícitamente instancias difíciles para entrenar el modelo estudiante. Para obtener instancias difíciles diversas y no redundantes, adoptamos un enmascaramiento aleatorio a gran escala mientras utilizamos una red de reciclaje global para mitigar el riesgo de perder características clave. Además, el estudiante actualiza al maestro mediante un promedio móvil exponencial, lo que identifica nuevas instancias difíciles para iteraciones posteriores de entrenamiento y estabiliza la optimización. Los resultados experimentales en tareas de diagnóstico de cáncer, subtipificación, análisis de supervivencia y 12 benchmarks demuestran que MHIM-MIL supera a los métodos más recientes tanto en rendimiento como en eficiencia. El código está disponible en: https://github.com/DearCaat/MHIM-MIL.
English
Digitizing pathological images into gigapixel Whole Slide Images (WSIs) has
opened new avenues for Computational Pathology (CPath). As positive tissue
comprises only a small fraction of gigapixel WSIs, existing Multiple Instance
Learning (MIL) methods typically focus on identifying salient instances via
attention mechanisms. However, this leads to a bias towards easy-to-classify
instances while neglecting challenging ones. Recent studies have shown that
hard examples are crucial for accurately modeling discriminative boundaries.
Applying such an idea at the instance level, we elaborate a novel MIL framework
with masked hard instance mining (MHIM-MIL), which utilizes a Siamese structure
with a consistency constraint to explore the hard instances. Using a
class-aware instance probability, MHIM-MIL employs a momentum teacher to mask
salient instances and implicitly mine hard instances for training the student
model. To obtain diverse, non-redundant hard instances, we adopt large-scale
random masking while utilizing a global recycle network to mitigate the risk of
losing key features. Furthermore, the student updates the teacher using an
exponential moving average, which identifies new hard instances for subsequent
training iterations and stabilizes optimization. Experimental results on cancer
diagnosis, subtyping, survival analysis tasks, and 12 benchmarks demonstrate
that MHIM-MIL outperforms the latest methods in both performance and
efficiency. The code is available at: https://github.com/DearCaat/MHIM-MIL.