Framework di Apprendimento Multi-istanza con Estrazione di Istanze Difficili Mascherare per l'Analisi di Immagini Istopatologiche Gigapixel
Multiple Instance Learning Framework with Masked Hard Instance Mining for Gigapixel Histopathology Image Analysis
September 15, 2025
Autori: Wenhao Tang, Sheng Huang, Heng Fang, Fengtao Zhou, Bo Liu, Qingshan Liu
cs.AI
Abstract
La digitalizzazione delle immagini patologiche in Whole Slide Images (WSI) gigapixel ha aperto nuove strade per la Patologia Computazionale (CPath). Poiché il tessuto positivo costituisce solo una piccola frazione delle WSI gigapixel, i metodi esistenti di Apprendimento Multi-Istanza (MIL) si concentrano tipicamente sull'identificazione di istanze salienti attraverso meccanismi di attenzione. Tuttavia, ciò porta a un bias verso istanze facili da classificare, trascurando quelle più complesse. Studi recenti hanno dimostrato che gli esempi difficili sono cruciali per modellare accuratamente i confini discriminativi. Applicando tale idea a livello di istanza, abbiamo elaborato un nuovo framework MIL con masked hard instance mining (MHIM-MIL), che utilizza una struttura Siamese con un vincolo di consistenza per esplorare le istanze difficili. Utilizzando una probabilità di istanza consapevole della classe, MHIM-MIL impiega un insegnante a momento per mascherare le istanze salienti e estrarre implicitamente le istanze difficili per addestrare il modello studente. Per ottenere istanze difficili diverse e non ridondanti, adottiamo un mascheramento casuale su larga scala, utilizzando una rete di riciclo globale per mitigare il rischio di perdere caratteristiche chiave. Inoltre, lo studente aggiorna l'insegnante utilizzando una media mobile esponenziale, che identifica nuove istanze difficili per le iterazioni di addestramento successive e stabilizza l'ottimizzazione. I risultati sperimentali su compiti di diagnosi del cancro, sottotipizzazione, analisi di sopravvivenza e 12 benchmark dimostrano che MHIM-MIL supera i metodi più recenti sia in termini di prestazioni che di efficienza. Il codice è disponibile all'indirizzo: https://github.com/DearCaat/MHIM-MIL.
English
Digitizing pathological images into gigapixel Whole Slide Images (WSIs) has
opened new avenues for Computational Pathology (CPath). As positive tissue
comprises only a small fraction of gigapixel WSIs, existing Multiple Instance
Learning (MIL) methods typically focus on identifying salient instances via
attention mechanisms. However, this leads to a bias towards easy-to-classify
instances while neglecting challenging ones. Recent studies have shown that
hard examples are crucial for accurately modeling discriminative boundaries.
Applying such an idea at the instance level, we elaborate a novel MIL framework
with masked hard instance mining (MHIM-MIL), which utilizes a Siamese structure
with a consistency constraint to explore the hard instances. Using a
class-aware instance probability, MHIM-MIL employs a momentum teacher to mask
salient instances and implicitly mine hard instances for training the student
model. To obtain diverse, non-redundant hard instances, we adopt large-scale
random masking while utilizing a global recycle network to mitigate the risk of
losing key features. Furthermore, the student updates the teacher using an
exponential moving average, which identifies new hard instances for subsequent
training iterations and stabilizes optimization. Experimental results on cancer
diagnosis, subtyping, survival analysis tasks, and 12 benchmarks demonstrate
that MHIM-MIL outperforms the latest methods in both performance and
efficiency. The code is available at: https://github.com/DearCaat/MHIM-MIL.