MOOZY: Ein patientenzentriertes Grundmodell für die Computerpathologie

Zusammenfassung

Die computergestützte Pathologie benötigt Whole-Slide-Image(WSI)-Foundation-Modelle, die sich über verschiedene klinische Aufgaben übertragen lassen. Bisherige Ansätze bleiben jedoch weitgehend folienzentriert, sind oft auf private Daten und teure gepaarte Befundaufsicht angewiesen und modellieren Beziehungen zwischen mehreren Folien desselben Patienten nicht explizit. Wir stellen MOOZY vor, ein patientenzentriertes Pathologie-Foundation-Modell, bei dem der Patientenfall – nicht die einzelne Folie – die zentrale Darstellungseinheit ist. MOOZY modelliert Abhängigkeiten über alle Folien desselben Patienten explizit mittels eines Case-Transformers während des Pre-Trainings, kombiniert mit mehrstufiger offener Selbstüberwachung und skalierter, kostengünstiger Aufgabenaufsicht. In Stufe 1 pretrainen wir einen rein visuellen Folien-Encoder auf 77.134 öffentlichen Folien-Feature-Grids mittels maskierter Selbstdistillation. In Stufe 2 alignieren wir diese Repräsentationen mit klinischer Semantik unter Verwendung eines Case-Transformers und Multi-Task-Aufsicht über 333 Aufgaben aus 56 öffentlichen Datensätzen, darunter 205 Klassifikations- und 128 Überlebenstasks über vier Endpunkte. In acht zurückgehaltenen Tests mit Five-Fold Frozen-Feature-Probe-Evaluation erzielt MOOZY auf den meisten Metriken die beste oder geteilte beste Leistung und verbessert die Makrodurchschnitte gegenüber TITAN um +7,37 %, +5,50 % und +7,83 % sowie gegenüber PRISM um +8,83 %, +10,70 % und +9,78 % für gewichtetes F1, gewichtetes ROC-AUC bzw. balanced Accuracy. MOOZY ist mit 85,77 Mio. Parametern auch parameter-effizient – 14-mal kleiner als GigaPath. Diese Ergebnisse demonstrieren, dass offenes, reproduzierbares Pre-Training auf Patientenfällen übertragbare Embeddings liefert und einen praktischen Weg zu skalierbaren, patientenzentrierten Histopathologie-Foundation-Modellen ebnet.

English

Computational pathology needs whole-slide image (WSI) foundation models that transfer across diverse clinical tasks, yet current approaches remain largely slide-centric, often depend on private data and expensive paired-report supervision, and do not explicitly model relationships among multiple slides from the same patient. We present MOOZY, a patient-first pathology foundation model in which the patient case, not the individual slide, is the core unit of representation. MOOZY explicitly models dependencies across all slides from the same patient via a case transformer during pretraining, combining multi-stage open self-supervision with scaled low-cost task supervision. In Stage 1, we pretrain a vision-only slide encoder on 77,134 public slide feature grids using masked self-distillation. In Stage 2, we align these representations with clinical semantics using a case transformer and multi-task supervision over 333 tasks from 56 public datasets, including 205 classification and 128 survival tasks across four endpoints. Across eight held-out tasks with five-fold frozen-feature probe evaluation, MOOZY achieves best or tied-best performance on most metrics and improves macro averages over TITAN by +7.37%, +5.50%, and +7.83% and over PRISM by +8.83%, +10.70%, and +9.78% for weighted F1, weighted ROC-AUC, and balanced accuracy, respectively. MOOZY is also parameter efficient with 85.77M parameters, 14x smaller than GigaPath. These results demonstrate that open, reproducible patient-level pretraining yields transferable embeddings, providing a practical path toward scalable patient-first histopathology foundation models.

MOOZY: Ein patientenzentriertes Grundmodell für die Computerpathologie

MOOZY: A Patient-First Foundation Model for Computational Pathology

Zusammenfassung

Support