Perdido nas Dobras: Quando a Validação Cruzada Não é um Ensemble Profundo para Estimativa de Incerteza

Resumo

A discordância de ensembles é amplamente utilizada como proxy para incerteza epistêmica em segmentação de imagens médicas. Na prática, muitos estudos formam ensembles por meio de validação cruzada K-fold (CV), mas os denominam como "ensembles profundos" (DE). Como os membros do CV são treinados em subconjuntos de dados diferentes, sua discordância combina variabilidade impulsionada pela semente com efeitos de exposição aos dados, o que pode alterar a forma como a incerteza deve ser interpretada. Audiamos estudos recentes sobre incerteza em segmentação e constatamos que incompatibilidades entre terminologia e implementação são comuns. Em seguida, comparamos um ensemble padrão de CV com 5 folds a um DE de 5 membros (conjunto de treinamento fixo, sementes aleatórias diferentes) sob configurações idênticas, em três conjuntos de dados de segmentação com múltiplos avaliadores, abrangendo três modalidades. Avaliamos a incerteza quanto à calibração, detecção de falhas, modelagem de ambiguidade e robustez sob mudança de distribuição. Os DEs igualam a precisão da segmentação, ao mesmo tempo que melhoram a calibração e a detecção de falhas, enquanto os ensembles de CV, nos conjuntos de dados estudados, às vezes se correlacionam mais fortemente com a variabilidade entre avaliadores. Portanto, a construção do ensemble deve ser escolhida de acordo com a pergunta de pesquisa: DEs para usos voltados à confiabilidade (por exemplo, encaminhamento seletivo/detecção de falhas) e ensembles de CV como proxy para ambiguidade. Fornecemos uma modificação leve do nnU-Net que possibilita o treinamento de DEs dentro do pipeline padrão.

English

Ensemble disagreement is widely used as a proxy for epistemic uncertainty in medical image segmentation. In practice, many studies form ensembles via K-fold cross-validation (CV), yet refer to them as ``deep ensembles'' (DE). Because CV members are trained on different data subsets, their disagreement mixes seed-driven variability with data-exposure effects, which can change how uncertainty should be interpreted. We audit recent segmentation uncertainty studies and find that terminology--implementation mismatches are common. We then compare a standard 5-fold CV ensemble to a 5-member DE (fixed training set, different random seeds) under otherwise identical configurations on three multi-rater segmentation datasets spanning three modalities. We evaluate uncertainty for calibration, failure detection, ambiguity modeling, and robustness under distribution shift. DE match segmentation accuracy while improving calibration and failure detection, whereas CV ensembles sometimes correlate more strongly with inter-rater variability on the studied datasets. Thus, ensemble construction should be chosen to match the research question: DE for reliability-oriented use (e.g., selective referral/failure detection) and CV ensembles as a proxy for ambiguity. We provide a lightweight nnU-Net modification enabling DE training within the default pipeline.