Verloren in de Vouwen: Wanneer Kruisvalidatie Geen Diepe Ensemble is voor Onzekerheidsschatting

Samenvatting

Ensemble-verschillen worden veelvuldig gebruikt als proxy voor epistemische onzekerheid bij medische beeldsegmentatie. In de praktijk vormen veel studies ensembles via K-voudige kruisvalidatie (CV), maar verwijzen ernaar als 'diepe ensembles' (DE). Omdat CV-leden worden getraind op verschillende datasubsets, mengt hun onderlinge variabiliteit seed-geïnduceerde variabiliteit met effecten van data-exposure, wat de interpretatie van onzekerheid kan veranderen. We onderzoeken recente onzekerheidsstudies in segmentatie en constateren dat terminologie-implementatie-mismatches veelvoorkomend zijn. Vervolgens vergelijken we een standaard 5-voudig CV-ensemble met een 5-ledig DE (vaste trainingsset, verschillende random seeds) onder verder identieke configuraties op drie multi-rate segmentatiedatasets uit drie modaliteiten. We evalueren onzekerheid voor calibratie, foutdetectie, ambiguïteitsmodellering en robuustheid onder distributieverschuiving. DE behaalt vergelijkbare segmentatienauwkeurigheid terwijl calibratie en foutdetectie verbeteren, terwijl CV-ensembles op de bestudeerde datasets soms sterker correleren met inter-beoordelaarsvariabiliteit. De constructie van ensembles moet daarom worden gekozen op basis van de onderzoeksvraag: DE voor betrouwbaarheidsgerichte toepassingen (bijv. selectieve verwijzing/foutdetectie) en CV-ensembles als proxy voor ambiguïteit. We bieden een lichte nnU-Net-aanpassing waarmee DE-training binnen de standaardpijplijn mogelijk wordt.

English

Ensemble disagreement is widely used as a proxy for epistemic uncertainty in medical image segmentation. In practice, many studies form ensembles via K-fold cross-validation (CV), yet refer to them as ``deep ensembles'' (DE). Because CV members are trained on different data subsets, their disagreement mixes seed-driven variability with data-exposure effects, which can change how uncertainty should be interpreted. We audit recent segmentation uncertainty studies and find that terminology--implementation mismatches are common. We then compare a standard 5-fold CV ensemble to a 5-member DE (fixed training set, different random seeds) under otherwise identical configurations on three multi-rater segmentation datasets spanning three modalities. We evaluate uncertainty for calibration, failure detection, ambiguity modeling, and robustness under distribution shift. DE match segmentation accuracy while improving calibration and failure detection, whereas CV ensembles sometimes correlate more strongly with inter-rater variability on the studied datasets. Thus, ensemble construction should be chosen to match the research question: DE for reliability-oriented use (e.g., selective referral/failure detection) and CV ensembles as a proxy for ambiguity. We provide a lightweight nnU-Net modification enabling DE training within the default pipeline.