MOOZY: Um Modelo de Base com Foco no Paciente para Patologia Computacional

Resumo

A patologia computacional necessita de modelos de base para imagens de lâmina completa (WSI) que se transfiram entre diversas tarefas clínicas. No entanto, as abordagens atuais permanecem amplamente centradas na lâmina, frequentemente dependem de dados privados e de supervisão dispendiosa com relatórios emparelhados, e não modelam explicitamente as relações entre múltiplas lâminas do mesmo paciente. Apresentamos o MOOZY, um modelo de base para patologia com abordagem centrada no paciente, no qual o caso clínico, e não a lâmina individual, é a unidade central de representação. O MOOZY modela explicitamente as dependências entre todas as lâminas do mesmo paciente através de um *transformer* de caso durante o pré-treinamento, combinando auto-supervisão aberta em múltiplos estágios com supervisão de tarefas escalável e de baixo custo. No Estágio 1, pré-treinamos um codificador de lâmina apenas visual em 77.134 grelhas de características de lâminas públicas usando auto-distilação mascarada. No Estágio 2, alinhamos essas representações com a semântica clínica usando um *transformer* de caso e supervisão multi-tarefa em 333 tarefas de 56 conjuntos de dados públicos, incluindo 205 tarefas de classificação e 128 tarefas de sobrevivência em quatro *endpoints*. Em oito tarefas retidas com avaliação de *probe* de características congeladas e validação cruzada de cinco partes, o MOOZY alcança o melhor desempenho ou empata no melhor desempenho na maioria das métricas e melhora as médias macro em relação ao TITAN em +7,37%, +5,50% e +7,83%, e em relação ao PRISM em +8,83%, +10,70% e +9,78% para F1 ponderado, ROC-AUC ponderado e precisão balanceada, respetivamente. O MOOZY é também eficiente em parâmetros, com 85,77 milhões de parâmetros, 14 vezes menor que o GigaPath. Estes resultados demonstram que um pré-treinamento aberto e reproduzível ao nível do paciente produz *embeddings* transferíveis, fornecendo um caminho prático para modelos de base em histopatologia escaláveis e centrados no paciente.

English

Computational pathology needs whole-slide image (WSI) foundation models that transfer across diverse clinical tasks, yet current approaches remain largely slide-centric, often depend on private data and expensive paired-report supervision, and do not explicitly model relationships among multiple slides from the same patient. We present MOOZY, a patient-first pathology foundation model in which the patient case, not the individual slide, is the core unit of representation. MOOZY explicitly models dependencies across all slides from the same patient via a case transformer during pretraining, combining multi-stage open self-supervision with scaled low-cost task supervision. In Stage 1, we pretrain a vision-only slide encoder on 77,134 public slide feature grids using masked self-distillation. In Stage 2, we align these representations with clinical semantics using a case transformer and multi-task supervision over 333 tasks from 56 public datasets, including 205 classification and 128 survival tasks across four endpoints. Across eight held-out tasks with five-fold frozen-feature probe evaluation, MOOZY achieves best or tied-best performance on most metrics and improves macro averages over TITAN by +7.37%, +5.50%, and +7.83% and over PRISM by +8.83%, +10.70%, and +9.78% for weighted F1, weighted ROC-AUC, and balanced accuracy, respectively. MOOZY is also parameter efficient with 85.77M parameters, 14x smaller than GigaPath. These results demonstrate that open, reproducible patient-level pretraining yields transferable embeddings, providing a practical path toward scalable patient-first histopathology foundation models.

MOOZY: Um Modelo de Base com Foco no Paciente para Patologia Computacional

MOOZY: A Patient-First Foundation Model for Computational Pathology

Resumo

Support