Mehrfachinstanzen-Lernrahmenwerk mit maskierter harter Instanzenextraktion für die Analyse von Gigapixel-Histopathologiebildern
Multiple Instance Learning Framework with Masked Hard Instance Mining for Gigapixel Histopathology Image Analysis
September 15, 2025
papers.authors: Wenhao Tang, Sheng Huang, Heng Fang, Fengtao Zhou, Bo Liu, Qingshan Liu
cs.AI
papers.abstract
Die Digitalisierung pathologischer Bilder in gigapixelgroße Whole Slide Images (WSIs) hat neue Möglichkeiten für die Computational Pathology (CPath) eröffnet. Da positives Gewebe nur einen kleinen Teil der gigapixelgroßen WSIs ausmacht, konzentrieren sich bestehende Multiple Instance Learning (MIL)-Methoden typischerweise auf die Identifizierung relevanter Instanzen mithilfe von Aufmerksamkeitsmechanismen. Dies führt jedoch zu einer Verzerrung hin zu leicht klassifizierbaren Instanzen, während schwierige Instanzen vernachlässigt werden. Aktuelle Studien haben gezeigt, dass schwierige Beispiele entscheidend für die präzise Modellierung diskriminativer Grenzen sind. Indem wir diesen Ansatz auf Instanzebene anwenden, entwickeln wir ein neuartiges MIL-Framework mit Masked Hard Instance Mining (MHIM-MIL), das eine Siamese-Struktur mit einer Konsistenzbedingung nutzt, um schwierige Instanzen zu erkunden. MHIM-MIL verwendet eine klassenbewusste Instanzwahrscheinlichkeit und einen Momentum Teacher, um relevante Instanzen zu maskieren und implizit schwierige Instanzen für das Training des Student-Modells zu extrahieren. Um vielfältige, nicht redundante schwierige Instanzen zu erhalten, setzen wir großflächige zufällige Maskierung ein und nutzen ein globales Recycle-Netzwerk, um das Risiko des Verlusts wichtiger Merkmale zu minimieren. Darüber hinaus aktualisiert der Student den Teacher mithilfe eines exponentiellen gleitenden Durchschnitts, wodurch neue schwierige Instanzen für nachfolgende Trainingsiterationen identifiziert und die Optimierung stabilisiert werden. Experimentelle Ergebnisse zu Aufgaben der Krebsdiagnose, Subtypisierung, Überlebensanalyse und 12 Benchmarks zeigen, dass MHIM-MIL die neuesten Methoden sowohl in der Leistung als auch in der Effizienz übertrifft. Der Code ist verfügbar unter: https://github.com/DearCaat/MHIM-MIL.
English
Digitizing pathological images into gigapixel Whole Slide Images (WSIs) has
opened new avenues for Computational Pathology (CPath). As positive tissue
comprises only a small fraction of gigapixel WSIs, existing Multiple Instance
Learning (MIL) methods typically focus on identifying salient instances via
attention mechanisms. However, this leads to a bias towards easy-to-classify
instances while neglecting challenging ones. Recent studies have shown that
hard examples are crucial for accurately modeling discriminative boundaries.
Applying such an idea at the instance level, we elaborate a novel MIL framework
with masked hard instance mining (MHIM-MIL), which utilizes a Siamese structure
with a consistency constraint to explore the hard instances. Using a
class-aware instance probability, MHIM-MIL employs a momentum teacher to mask
salient instances and implicitly mine hard instances for training the student
model. To obtain diverse, non-redundant hard instances, we adopt large-scale
random masking while utilizing a global recycle network to mitigate the risk of
losing key features. Furthermore, the student updates the teacher using an
exponential moving average, which identifies new hard instances for subsequent
training iterations and stabilizes optimization. Experimental results on cancer
diagnosis, subtyping, survival analysis tasks, and 12 benchmarks demonstrate
that MHIM-MIL outperforms the latest methods in both performance and
efficiency. The code is available at: https://github.com/DearCaat/MHIM-MIL.