RadEdit: stress-testen van biomedische vision-modellen via diffusiebeeldbewerking
RadEdit: stress-testing biomedical vision models via diffusion image editing
December 20, 2023
Auteurs: Fernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse
cs.AI
Samenvatting
Biomedische beeldvormingsdatasets zijn vaak klein en bevooroordeeld, wat betekent dat de prestaties van voorspellende modellen in de praktijk aanzienlijk lager kunnen zijn dan verwacht op basis van interne tests. Dit werk stelt voor om generatieve beeldbewerking te gebruiken om datasetshifts te simuleren en faalmodi van biomedische beeldherkenningsmodellen te diagnosticeren; dit kan worden toegepast vóór implementatie om de gereedheid te beoordelen, wat mogelijk kosten en patiëntschade kan verminderen. Bestaande bewerkingsmethoden kunnen ongewenste veranderingen veroorzaken, waarbij spurious correlations worden geleerd door het gelijktijdig optreden van ziekte en behandelingsinterventies, wat de praktische toepasbaarheid beperkt. Om dit aan te pakken, trainen we een tekst-naar-beeld diffusiemodel op meerdere thoraxfoto-datasets en introduceren we een nieuwe bewerkingsmethode, RadEdit, die meerdere maskers gebruikt, indien aanwezig, om veranderingen te beperken en consistentie in de bewerkte afbeeldingen te waarborgen. We beschouwen drie soorten datasetshifts: acquisitieshift, manifestatieshift en populatieshift, en demonstreren dat onze aanpak falen kan diagnosticeren en de robuustheid van modellen kan kwantificeren zonder aanvullende dataverzameling, wat een aanvulling vormt op meer kwalitatieve tools voor uitlegbare AI.
English
Biomedical imaging datasets are often small and biased, meaning that
real-world performance of predictive models can be substantially lower than
expected from internal testing. This work proposes using generative image
editing to simulate dataset shifts and diagnose failure modes of biomedical
vision models; this can be used in advance of deployment to assess readiness,
potentially reducing cost and patient harm. Existing editing methods can
produce undesirable changes, with spurious correlations learned due to the
co-occurrence of disease and treatment interventions, limiting practical
applicability. To address this, we train a text-to-image diffusion model on
multiple chest X-ray datasets and introduce a new editing method RadEdit that
uses multiple masks, if present, to constrain changes and ensure consistency in
the edited images. We consider three types of dataset shifts: acquisition
shift, manifestation shift, and population shift, and demonstrate that our
approach can diagnose failures and quantify model robustness without additional
data collection, complementing more qualitative tools for explainable AI.