Estrutura de Aprendizado de Múltiplas Instâncias com Mineração de Instâncias Difíceis Mascaradas para Análise de Imagens de Histopatologia em Gigapixels
Multiple Instance Learning Framework with Masked Hard Instance Mining for Gigapixel Histopathology Image Analysis
September 15, 2025
Autores: Wenhao Tang, Sheng Huang, Heng Fang, Fengtao Zhou, Bo Liu, Qingshan Liu
cs.AI
Resumo
A digitalização de imagens patológicas em Whole Slide Images (WSIs) de gigapixels abriu novos caminhos para a Patologia Computacional (CPath). Como o tecido positivo representa apenas uma pequena fração das WSIs de gigapixels, os métodos existentes de Aprendizado de Múltiplas Instâncias (MIL) geralmente se concentram em identificar instâncias salientes por meio de mecanismos de atenção. No entanto, isso leva a um viés em direção a instâncias fáceis de classificar, enquanto as desafiadoras são negligenciadas. Estudos recentes mostraram que exemplos difíceis são cruciais para modelar com precisão os limites discriminativos. Aplicando essa ideia no nível da instância, elaboramos uma nova estrutura MIL com mineração de instâncias difíceis mascaradas (MHIM-MIL), que utiliza uma estrutura Siamesa com uma restrição de consistência para explorar as instâncias difíceis. Usando uma probabilidade de instância consciente da classe, o MHIM-MIL emprega um professor de momentum para mascarar instâncias salientes e minerar implicitamente instâncias difíceis para treinar o modelo estudante. Para obter instâncias difíceis diversas e não redundantes, adotamos o mascaramento aleatório em larga escala, enquanto utilizamos uma rede de reciclagem global para mitigar o risco de perder características-chave. Além disso, o estudante atualiza o professor usando uma média móvel exponencial, que identifica novas instâncias difíceis para iterações subsequentes de treinamento e estabiliza a otimização. Resultados experimentais em tarefas de diagnóstico de câncer, subtipagem, análise de sobrevivência e 12 benchmarks demonstram que o MHIM-MIL supera os métodos mais recentes em desempenho e eficiência. O código está disponível em: https://github.com/DearCaat/MHIM-MIL.
English
Digitizing pathological images into gigapixel Whole Slide Images (WSIs) has
opened new avenues for Computational Pathology (CPath). As positive tissue
comprises only a small fraction of gigapixel WSIs, existing Multiple Instance
Learning (MIL) methods typically focus on identifying salient instances via
attention mechanisms. However, this leads to a bias towards easy-to-classify
instances while neglecting challenging ones. Recent studies have shown that
hard examples are crucial for accurately modeling discriminative boundaries.
Applying such an idea at the instance level, we elaborate a novel MIL framework
with masked hard instance mining (MHIM-MIL), which utilizes a Siamese structure
with a consistency constraint to explore the hard instances. Using a
class-aware instance probability, MHIM-MIL employs a momentum teacher to mask
salient instances and implicitly mine hard instances for training the student
model. To obtain diverse, non-redundant hard instances, we adopt large-scale
random masking while utilizing a global recycle network to mitigate the risk of
losing key features. Furthermore, the student updates the teacher using an
exponential moving average, which identifies new hard instances for subsequent
training iterations and stabilizes optimization. Experimental results on cancer
diagnosis, subtyping, survival analysis tasks, and 12 benchmarks demonstrate
that MHIM-MIL outperforms the latest methods in both performance and
efficiency. The code is available at: https://github.com/DearCaat/MHIM-MIL.