MOOZY: Un Modelo Fundacional Centrado en el Paciente para Patología Computacional

Resumen

La patología computacional necesita modelos fundacionales de imágenes de portaobjetos completos (WSI) que se transfieran a diversas tareas clínicas. Sin embargo, los enfoques actuales siguen siendo en gran medida centrados en portaobjetos, a menudo dependen de datos privados y de una supervisión costosa con informes emparejados, y no modelan explícitamente las relaciones entre múltiples portaobjetos de un mismo paciente. Presentamos MOOZY, un modelo fundacional de patología centrado en el paciente, en el que el caso del paciente, no el portaobjetos individual, es la unidad central de representación. MOOZY modela explícitamente las dependencias entre todos los portaobjetos de un mismo paciente mediante un transformador de casos durante el preentrenamiento, combinando la auto-supervisión abierta multietapa con una supervisión de tareas escalada y de bajo coste. En la Etapa 1, preentrenamos un codificador de portaobjetos únicamente visual en 77.134 cuadrículas de características de portaobjetos públicas utilizando auto-distilación enmascarada. En la Etapa 2, alineamos estas representaciones con la semántica clínica usando un transformador de casos y supervisión multi-tarea sobre 333 tareas de 56 conjuntos de datos públicos, incluyendo 205 tareas de clasificación y 128 tareas de supervivencia en cuatro puntos finales. En ocho tareas retenidas con evaluación de sonda de características congeladas y validación cruzada quintuple, MOOZY logra el mejor rendimiento o un rendimiento empatado en la mayoría de las métricas y mejora los promedios macro respecto a TITAN en un +7.37%, +5.50% y +7.83%, y respecto a PRISM en un +8.83%, +10.70% y +9.78% para el F1 ponderado, el ROC-AUC ponderado y la precisión equilibrada, respectivamente. MOOZY también es eficiente en parámetros, con 85.77 millones de parámetros, 14 veces más pequeño que GigaPath. Estos resultados demuestran que el preentrenamiento abierto y reproducible a nivel de paciente produce *embeddings* transferibles, proporcionando un camino práctico hacia modelos fundacionales de histopatología escalables y centrados en el paciente.

English

Computational pathology needs whole-slide image (WSI) foundation models that transfer across diverse clinical tasks, yet current approaches remain largely slide-centric, often depend on private data and expensive paired-report supervision, and do not explicitly model relationships among multiple slides from the same patient. We present MOOZY, a patient-first pathology foundation model in which the patient case, not the individual slide, is the core unit of representation. MOOZY explicitly models dependencies across all slides from the same patient via a case transformer during pretraining, combining multi-stage open self-supervision with scaled low-cost task supervision. In Stage 1, we pretrain a vision-only slide encoder on 77,134 public slide feature grids using masked self-distillation. In Stage 2, we align these representations with clinical semantics using a case transformer and multi-task supervision over 333 tasks from 56 public datasets, including 205 classification and 128 survival tasks across four endpoints. Across eight held-out tasks with five-fold frozen-feature probe evaluation, MOOZY achieves best or tied-best performance on most metrics and improves macro averages over TITAN by +7.37%, +5.50%, and +7.83% and over PRISM by +8.83%, +10.70%, and +9.78% for weighted F1, weighted ROC-AUC, and balanced accuracy, respectively. MOOZY is also parameter efficient with 85.77M parameters, 14x smaller than GigaPath. These results demonstrate that open, reproducible patient-level pretraining yields transferable embeddings, providing a practical path toward scalable patient-first histopathology foundation models.

MOOZY: Un Modelo Fundacional Centrado en el Paciente para Patología Computacional

MOOZY: A Patient-First Foundation Model for Computational Pathology

Resumen

Support