Perdido en los Pliegues: Cuando la Validación Cruzada No es un Conjunto Profundo para la Estimación de Incertidumbre

Resumen

La discrepancia del ensamble se utiliza ampliamente como proxy de la incertidumbre epistémica en la segmentación de imágenes médicas. En la práctica, muchos estudios forman ensambles mediante validación cruzada de K pliegues (CV), aunque se refieren a ellos como "ensambles profundos" (DE). Dado que los miembros de la CV se entrenan en subconjuntos de datos diferentes, su discrepancia combina la variabilidad inducida por la semilla con efectos de exposición a datos, lo que puede alterar la interpretación de la incertidumbre. Revisamos estudios recientes de incertidumbre en segmentación y encontramos que los desajustes entre terminología e implementación son comunes. Luego, comparamos un ensamble estándar de CV con 5 pliegues frente a un DE de 5 miembros (conjunto de entrenamiento fijo, distintas semillas aleatorias) bajo configuraciones idénticas en tres conjuntos de datos de segmentación con múltiples evaluadores que abarcan tres modalidades. Evaluamos la incertidumbre en términos de calibración, detección de fallos, modelado de ambigüedad y robustez ante cambios en la distribución. Los DE igualan la precisión de segmentación a la vez que mejoran la calibración y la detección de fallos, mientras que los ensambles de CV a veces se correlacionan más fuertemente con la variabilidad entre evaluadores en los conjuntos de datos estudiados. Por lo tanto, la construcción del ensamble debe elegirse según la pregunta de investigación: DE para usos orientados a la fiabilidad (p. ej., derivación selectiva/detección de fallos) y ensambles de CV como proxy de la ambigüedad. Proporcionamos una modificación ligera de nnU-Net que permite el entrenamiento de DE dentro del flujo de trabajo por defecto.

English

Ensemble disagreement is widely used as a proxy for epistemic uncertainty in medical image segmentation. In practice, many studies form ensembles via K-fold cross-validation (CV), yet refer to them as ``deep ensembles'' (DE). Because CV members are trained on different data subsets, their disagreement mixes seed-driven variability with data-exposure effects, which can change how uncertainty should be interpreted. We audit recent segmentation uncertainty studies and find that terminology--implementation mismatches are common. We then compare a standard 5-fold CV ensemble to a 5-member DE (fixed training set, different random seeds) under otherwise identical configurations on three multi-rater segmentation datasets spanning three modalities. We evaluate uncertainty for calibration, failure detection, ambiguity modeling, and robustness under distribution shift. DE match segmentation accuracy while improving calibration and failure detection, whereas CV ensembles sometimes correlate more strongly with inter-rater variability on the studied datasets. Thus, ensemble construction should be chosen to match the research question: DE for reliability-oriented use (e.g., selective referral/failure detection) and CV ensembles as a proxy for ambiguity. We provide a lightweight nnU-Net modification enabling DE training within the default pipeline.