RadEdit: stress-testing di modelli di visione biomedica tramite editing di immagini con diffusione
RadEdit: stress-testing biomedical vision models via diffusion image editing
December 20, 2023
Autori: Fernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse
cs.AI
Abstract
I dataset di imaging biomedico sono spesso di piccole dimensioni e distorti, il che significa che le prestazioni dei modelli predittivi nel mondo reale possono essere sostanzialmente inferiori rispetto a quanto atteso dai test interni. Questo lavoro propone l'utilizzo dell'editing generativo di immagini per simulare gli spostamenti dei dataset e diagnosticare le modalità di fallimento dei modelli di visione biomedica; ciò può essere utilizzato prima della distribuzione per valutarne l'idoneità, potenzialmente riducendo i costi e i danni ai pazienti. I metodi di editing esistenti possono produrre modifiche indesiderate, con correlazioni spurie apprese a causa della co-occorrenza di malattie e interventi terapeutici, limitando l'applicabilità pratica. Per affrontare questo problema, addestriamo un modello di diffusione da testo a immagine su più dataset di radiografie del torace e introduciamo un nuovo metodo di editing, RadEdit, che utilizza più maschere, se presenti, per vincolare le modifiche e garantire la coerenza nelle immagini modificate. Consideriamo tre tipi di spostamenti dei dataset: spostamento di acquisizione, spostamento di manifestazione e spostamento di popolazione, e dimostriamo che il nostro approccio può diagnosticare i fallimenti e quantificare la robustezza del modello senza ulteriori raccolte di dati, integrando strumenti più qualitativi per l'AI spiegabile.
English
Biomedical imaging datasets are often small and biased, meaning that
real-world performance of predictive models can be substantially lower than
expected from internal testing. This work proposes using generative image
editing to simulate dataset shifts and diagnose failure modes of biomedical
vision models; this can be used in advance of deployment to assess readiness,
potentially reducing cost and patient harm. Existing editing methods can
produce undesirable changes, with spurious correlations learned due to the
co-occurrence of disease and treatment interventions, limiting practical
applicability. To address this, we train a text-to-image diffusion model on
multiple chest X-ray datasets and introduce a new editing method RadEdit that
uses multiple masks, if present, to constrain changes and ensure consistency in
the edited images. We consider three types of dataset shifts: acquisition
shift, manifestation shift, and population shift, and demonstrate that our
approach can diagnose failures and quantify model robustness without additional
data collection, complementing more qualitative tools for explainable AI.