TwinTrack: Calibrazione Post-hoc Multi-Valutatore per la Segmentazione di Immagini Mediche

Abstract

La segmentazione dell'adenocarcinoma duttale pancreatico (PDAC) sulla TC con mezzo di contrasto è intrinsecamente ambigua: la discrepanza tra valutatori esperti riflette una genuina incertezza piuttosto che un rumore di annotazione. Gli approcci standard di deep learning presuppongono una singola verità di base, producendo output probabilistici che possono essere scarsamente calibrati e di difficile interpretazione in tale contesto di ambiguità. Presentiamo TwinTrack, un framework che colma questa lacuna attraverso la calibrazione post-hoc delle probabilità di segmentazione di ensemble rispetto alla risposta umana media empirica (MHR) - la frazione di annotatori esperti che classifica un voxel come tumore. Le probabilità calibrate sono quindi direttamente interpretabili come la proporzione attesa di annotatori che assegnano l'etichetta di tumore, modellando esplicitamente la discrepanza inter-valutatore. La procedura di calibrazione post-hoc proposta è semplice e richiede solo un piccolo set di calibrazione multi-valutatore. Migliora costantemente le metriche di calibrazione rispetto agli approcci standard quando valutata sul benchmark multi-valutatore MICCAI 2025 CURVAS-PDACVI.

English

Pancreatic ductal adenocarcinoma (PDAC) segmentation on contrast-enhanced CT is inherently ambiguous: inter-rater disagreement among experts reflects genuine uncertainty rather than annotation noise. Standard deep learning approaches assume a single ground truth, producing probabilistic outputs that can be poorly calibrated and difficult to interpret under such ambiguity. We present TwinTrack, a framework that addresses this gap through post-hoc calibration of ensemble segmentation probabilities to the empirical mean human response (MHR) -the fraction of expert annotators labeling a voxel as tumor. Calibrated probabilities are thus directly interpretable as the expected proportion of annotators assigning the tumor label, explicitly modeling inter-rater disagreement. The proposed post-hoc calibration procedure is simple and requires only a small multi-rater calibration set. It consistently improves calibration metrics over standard approaches when evaluated on the MICCAI 2025 CURVAS-PDACVI multi-rater benchmark.

TwinTrack: Calibrazione Post-hoc Multi-Valutatore per la Segmentazione di Immagini Mediche

TwinTrack: Post-hoc Multi-Rater Calibration for Medical Image Segmentation

Abstract

Support