Perdu dans les plis : quand la validation croisée n'est pas un ensemble profond pour l'estimation d'incertitude

Résumé

Le désaccord d’ensemble est largement utilisé comme indicateur de l’incertitude épistémique dans la segmentation d’images médicales. En pratique, de nombreuses études forment des ensembles via une validation croisée à K plis (CV), mais les désignent pourtant comme des « deep ensembles » (DE). Étant donné que les membres du CV sont entraînés sur différents sous-ensembles de données, leur désaccord mélange la variabilité due aux graines aléatoires avec les effets d’exposition aux données, ce qui peut modifier l’interprétation de l’incertitude. Nous examinons des études récentes sur l’incertitude en segmentation et constatons que les décalages entre terminologie et implémentation sont courants. Nous comparons ensuite un ensemble CV standard à 5 plis avec un DE à 5 membres (ensemble d’entraînement fixe, graines aléatoires différentes) sous des configurations par ailleurs identiques, sur trois jeux de données de segmentation multi-évaluateurs couvrant trois modalités. Nous évaluons l’incertitude pour le calibrage, la détection d’échecs, la modélisation de l’ambiguïté et la robustesse sous décalage de distribution. Les DE égalent la précision de segmentation tout en améliorant le calibrage et la détection d’échecs, tandis que les ensembles CV sont parfois plus fortement corrélés à la variabilité inter-évaluateurs sur les jeux de données étudiés. Ainsi, la construction de l’ensemble doit être choisie en fonction de la question de recherche : les DE pour une utilisation axée sur la fiabilité (par exemple, orientation sélective/détection d’échecs) et les ensembles CV comme indicateur de l’ambiguïté. Nous fournissons une modification légère de nnU‑Net permettant l’entraînement des DE dans le pipeline par défaut.

English

Ensemble disagreement is widely used as a proxy for epistemic uncertainty in medical image segmentation. In practice, many studies form ensembles via K-fold cross-validation (CV), yet refer to them as ``deep ensembles'' (DE). Because CV members are trained on different data subsets, their disagreement mixes seed-driven variability with data-exposure effects, which can change how uncertainty should be interpreted. We audit recent segmentation uncertainty studies and find that terminology--implementation mismatches are common. We then compare a standard 5-fold CV ensemble to a 5-member DE (fixed training set, different random seeds) under otherwise identical configurations on three multi-rater segmentation datasets spanning three modalities. We evaluate uncertainty for calibration, failure detection, ambiguity modeling, and robustness under distribution shift. DE match segmentation accuracy while improving calibration and failure detection, whereas CV ensembles sometimes correlate more strongly with inter-rater variability on the studied datasets. Thus, ensemble construction should be chosen to match the research question: DE for reliability-oriented use (e.g., selective referral/failure detection) and CV ensembles as a proxy for ambiguity. We provide a lightweight nnU-Net modification enabling DE training within the default pipeline.