TwinTrack: Post-hoc Multi-Rater Kalibratie voor Medische Beeldsegmentatie
TwinTrack: Post-hoc Multi-Rater Calibration for Medical Image Segmentation
April 17, 2026
Auteurs: Tristan Kirscher, Alexandra Ertl, Klaus Maier-Hein, Xavier Coubez, Philippe Meyer, Sylvain Faisan
cs.AI
Samenvatting
Segmentatie van ductaal adenocarcinoom van de pancreas (PDAC) op contrastversterkte CT-scans is inherent ambigu: de onenigheid tussen beoordelaars onder experts weerspiegelt een werkelijke onzekerheid in plaats van annotatieruis. Standaard deep learning-benaderingen gaan uit van één enkele grondwaarheid en produceren probabilistische uitvoeren die slecht gekalibreerd en moeilijk interpreteerbaar kunnen zijn onder dergelijke ambiguïteit. Wij presenteren TwinTrack, een raamwerk dat deze kloof dicht door een post-hoc kalibratie van ensemble-segmentatiewaarschijnlijkheden naar de empirische gemiddelde menselijke respons (MHR) – de fractie van expert-annotatoren die een voxel als tumor labelen. Gekalibreerde kansen zijn zo direct interpreteerbaar als de verwachte proportie annotatoren die het tumorlabel toekennen, waarbij de onenigheid tussen beoordelaars expliciet wordt gemodelleerd. De voorgestelde post-hoc kalibratieprocedure is eenvoudig en vereist slechts een kleine multi-rater kalibratieset. Het verbetert consistent de kalibratiemetrics ten opzichte van standaardbenaderingen bij evaluatie op de MICCAI 2025 CURVAS-PDACVI multi-rater benchmark.
English
Pancreatic ductal adenocarcinoma (PDAC) segmentation on contrast-enhanced CT is inherently ambiguous: inter-rater disagreement among experts reflects genuine uncertainty rather than annotation noise. Standard deep learning approaches assume a single ground truth, producing probabilistic outputs that can be poorly calibrated and difficult to interpret under such ambiguity. We present TwinTrack, a framework that addresses this gap through post-hoc calibration of ensemble segmentation probabilities to the empirical mean human response (MHR) -the fraction of expert annotators labeling a voxel as tumor. Calibrated probabilities are thus directly interpretable as the expected proportion of annotators assigning the tumor label, explicitly modeling inter-rater disagreement. The proposed post-hoc calibration procedure is simple and requires only a small multi-rater calibration set. It consistently improves calibration metrics over standard approaches when evaluated on the MICCAI 2025 CURVAS-PDACVI multi-rater benchmark.