TwinTrack: Calibração Pós-Hoc de Múltiplos Avaliadores para Segmentação de Imagens Médicas

Resumo

A segmentação do adenocarcinoma ductal pancreático (PDAC) em tomografia computadorizada com contraste é inerentemente ambígua: a discordância entre avaliadores especialistas reflete uma genuína incerteza, e não ruído na anotação. As abordagens padrão de aprendizagem profunda pressupõem uma única verdade fundamental, produzindo saídas probabilísticas que podem ser mal calibradas e de difícil interpretação sob tal ambiguidade. Apresentamos o TwinTrack, uma estrutura que aborda esta lacuna através da calibração *post-hoc* das probabilidades de segmentação de *ensemble* para a resposta humana média empírica (MHR) - a fração de anotadores especialistas que classificam um voxel como tumor. As probabilidades calibradas são, portanto, diretamente interpretáveis como a proporção esperada de anotadores que atribuem o rótulo de tumor, modelando explicitamente a discordância entre avaliadores. O procedimento de calibração *post-hoc* proposto é simples e requer apenas um pequeno conjunto de calibração com múltiplos avaliadores. Ele melhora consistentemente as métricas de calibração em relação às abordagens padrão quando avaliado no benchmark multi-avaliador CURVAS-PDACVI da MICCAI 2025.

English

Pancreatic ductal adenocarcinoma (PDAC) segmentation on contrast-enhanced CT is inherently ambiguous: inter-rater disagreement among experts reflects genuine uncertainty rather than annotation noise. Standard deep learning approaches assume a single ground truth, producing probabilistic outputs that can be poorly calibrated and difficult to interpret under such ambiguity. We present TwinTrack, a framework that addresses this gap through post-hoc calibration of ensemble segmentation probabilities to the empirical mean human response (MHR) -the fraction of expert annotators labeling a voxel as tumor. Calibrated probabilities are thus directly interpretable as the expected proportion of annotators assigning the tumor label, explicitly modeling inter-rater disagreement. The proposed post-hoc calibration procedure is simple and requires only a small multi-rater calibration set. It consistently improves calibration metrics over standard approaches when evaluated on the MICCAI 2025 CURVAS-PDACVI multi-rater benchmark.

TwinTrack: Calibração Pós-Hoc de Múltiplos Avaliadores para Segmentação de Imagens Médicas

TwinTrack: Post-hoc Multi-Rater Calibration for Medical Image Segmentation

Resumo

Support