RadEdit: stress-testen van biomedische vision-modellen via diffusiebeeldbewerking

Samenvatting

Biomedische beeldvormingsdatasets zijn vaak klein en bevooroordeeld, wat betekent dat de prestaties van voorspellende modellen in de praktijk aanzienlijk lager kunnen zijn dan verwacht op basis van interne tests. Dit werk stelt voor om generatieve beeldbewerking te gebruiken om datasetshifts te simuleren en faalmodi van biomedische beeldherkenningsmodellen te diagnosticeren; dit kan worden toegepast vóór implementatie om de gereedheid te beoordelen, wat mogelijk kosten en patiëntschade kan verminderen. Bestaande bewerkingsmethoden kunnen ongewenste veranderingen veroorzaken, waarbij spurious correlations worden geleerd door het gelijktijdig optreden van ziekte en behandelingsinterventies, wat de praktische toepasbaarheid beperkt. Om dit aan te pakken, trainen we een tekst-naar-beeld diffusiemodel op meerdere thoraxfoto-datasets en introduceren we een nieuwe bewerkingsmethode, RadEdit, die meerdere maskers gebruikt, indien aanwezig, om veranderingen te beperken en consistentie in de bewerkte afbeeldingen te waarborgen. We beschouwen drie soorten datasetshifts: acquisitieshift, manifestatieshift en populatieshift, en demonstreren dat onze aanpak falen kan diagnosticeren en de robuustheid van modellen kan kwantificeren zonder aanvullende dataverzameling, wat een aanvulling vormt op meer kwalitatieve tools voor uitlegbare AI.

English

Biomedical imaging datasets are often small and biased, meaning that real-world performance of predictive models can be substantially lower than expected from internal testing. This work proposes using generative image editing to simulate dataset shifts and diagnose failure modes of biomedical vision models; this can be used in advance of deployment to assess readiness, potentially reducing cost and patient harm. Existing editing methods can produce undesirable changes, with spurious correlations learned due to the co-occurrence of disease and treatment interventions, limiting practical applicability. To address this, we train a text-to-image diffusion model on multiple chest X-ray datasets and introduce a new editing method RadEdit that uses multiple masks, if present, to constrain changes and ensure consistency in the edited images. We consider three types of dataset shifts: acquisition shift, manifestation shift, and population shift, and demonstrate that our approach can diagnose failures and quantify model robustness without additional data collection, complementing more qualitative tools for explainable AI.

RadEdit: stress-testen van biomedische vision-modellen via diffusiebeeldbewerking

RadEdit: stress-testing biomedical vision models via diffusion image editing

Samenvatting

Support