ChatPaper.aiChatPaper

폴드 속에서 길을 잃다: 교차 검증이 불확실성 추정을 위한 딥 앙상블이 아닌 경우

Lost in the Folds: When Cross-Validation Is Not a Deep Ensemble for Uncertainty Estimation

May 18, 2026
저자: Kirscher Tristan, Bujotzek Markus, Kirchhoff Yannick, Rokuss Maximilian, Isensee Fabian, Kahl Kim-Celine, Kovacs Balint, Maier-Hein Klaus
cs.AI

초록

앙상블 불일치는 의료 영상 분할에서 인식적 불확실성의 대리 지표로 널리 사용된다. 실제로 많은 연구에서 K-겹 교차 검증(CV)을 통해 앙상블을 구성하면서도 이를 "심층 앙상블(DE)"이라고 지칭한다. CV 구성원은 서로 다른 데이터 하위 집합에서 학습되므로, 이들의 불일치는 시드 기반 변동성과 데이터 노출 효과를 혼합하게 되어 불확실성 해석 방식이 달라질 수 있다. 우리는 최근 분할 불확실성 연구들을 조사한 결과, 용어와 구현 간 불일치가 흔하다는 점을 발견했다. 이후 세 가지 모달리티에 걸친 세 개의 다중 평가자 분할 데이터셋에서 동일한 설정(고정 학습 세트, 서로 다른 난수 시드) 하에 표준 5겹 CV 앙상블과 5개 구성원 DE를 비교했다. 보정, 실패 탐지, 모호성 모델링, 분포 변화 하에서의 강건성 측면에서 불확실성을 평가했다. DE는 분할 정확도를 유지하면서 보정 및 실패 탐지를 개선한 반면, CV 앙상블은 연구된 데이터셋에서 평가자 간 변동성과 더 강한 상관관계를 보이는 경우가 있었다. 따라서 앙상블 구축은 연구 질문에 맞게 선택되어야 한다: 신뢰성 중심 사용(예: 선별적 의뢰/실패 탐지)을 위해서는 DE를, 모호성의 대리 지표로는 CV 앙상블을 사용한다. 우리는 기본 파이프라인 내에서 DE 학습을 가능하게 하는 경량 nnU-Net 수정본을 제공한다.
English
Ensemble disagreement is widely used as a proxy for epistemic uncertainty in medical image segmentation. In practice, many studies form ensembles via K-fold cross-validation (CV), yet refer to them as ``deep ensembles'' (DE). Because CV members are trained on different data subsets, their disagreement mixes seed-driven variability with data-exposure effects, which can change how uncertainty should be interpreted. We audit recent segmentation uncertainty studies and find that terminology--implementation mismatches are common. We then compare a standard 5-fold CV ensemble to a 5-member DE (fixed training set, different random seeds) under otherwise identical configurations on three multi-rater segmentation datasets spanning three modalities. We evaluate uncertainty for calibration, failure detection, ambiguity modeling, and robustness under distribution shift. DE match segmentation accuracy while improving calibration and failure detection, whereas CV ensembles sometimes correlate more strongly with inter-rater variability on the studied datasets. Thus, ensemble construction should be chosen to match the research question: DE for reliability-oriented use (e.g., selective referral/failure detection) and CV ensembles as a proxy for ambiguity. We provide a lightweight nnU-Net modification enabling DE training within the default pipeline.