RadEdit: 확산 이미지 편집을 통해 생체의학 비전 모델 스트레스 테스트
RadEdit: stress-testing biomedical vision models via diffusion image editing
December 20, 2023
저자: Fernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse
cs.AI
초록
생체의학 영상 데이터셋은 종종 작고 편향되어 있어, 예측 모델의 실제 성능이 내부 테스트에서 기대한 것보다 상당히 낮을 수 있습니다. 본 연구는 생성적 이미지 편집을 사용하여 데이터셋 변화를 시뮬레이션하고 생체의학 비전 모델의 실패 모드를 진단하는 방법을 제안합니다. 이는 배포 전 준비 상태를 평가하는 데 사용될 수 있어, 비용과 환자 피해를 잠재적으로 줄일 수 있습니다. 기존 편집 방법은 원치 않는 변화를 초래할 수 있으며, 질병과 치료 개입의 동시 발생으로 인해 잘못된 상관관계가 학습되어 실제 적용 가능성이 제한됩니다. 이를 해결하기 위해, 우리는 여러 흉부 X-ray 데이터셋에 대해 텍스트-이미지 확산 모델을 학습하고, 여러 마스크를 사용하여 변경을 제한하고 편집된 이미지의 일관성을 보장하는 새로운 편집 방법인 RadEdit을 소개합니다. 우리는 데이터셋 변화의 세 가지 유형인 획득 변화, 증상 변화, 그리고 인구 변화를 고려하며, 추가 데이터 수집 없이 실패를 진단하고 모델의 견고성을 정량화할 수 있음을 보여줌으로써 설명 가능한 AI를 위한 더 질적인 도구를 보완합니다.
English
Biomedical imaging datasets are often small and biased, meaning that
real-world performance of predictive models can be substantially lower than
expected from internal testing. This work proposes using generative image
editing to simulate dataset shifts and diagnose failure modes of biomedical
vision models; this can be used in advance of deployment to assess readiness,
potentially reducing cost and patient harm. Existing editing methods can
produce undesirable changes, with spurious correlations learned due to the
co-occurrence of disease and treatment interventions, limiting practical
applicability. To address this, we train a text-to-image diffusion model on
multiple chest X-ray datasets and introduce a new editing method RadEdit that
uses multiple masks, if present, to constrain changes and ensure consistency in
the edited images. We consider three types of dataset shifts: acquisition
shift, manifestation shift, and population shift, and demonstrate that our
approach can diagnose failures and quantify model robustness without additional
data collection, complementing more qualitative tools for explainable AI.