RadEdit: Belastungstests für biomedizinische Bildverarbeitungsmodelle durch Diffusion-basierte Bildbearbeitung
RadEdit: stress-testing biomedical vision models via diffusion image editing
December 20, 2023
Autoren: Fernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse
cs.AI
Zusammenfassung
Biomedische Bilddatensätze sind oft klein und verzerrt, was bedeutet, dass die reale Leistung von Vorhersagemodellen erheblich geringer ausfallen kann als bei internen Tests erwartet. Diese Arbeit schlägt vor, generative Bildbearbeitung zu verwenden, um Datensatzverschiebungen zu simulieren und Fehlermodi biomedizinischer Bildverarbeitungsmodelle zu diagnostizieren; dies kann vor der Bereitstellung genutzt werden, um die Einsatzbereitschaft zu bewerten und potenziell Kosten und Patientenschäden zu reduzieren. Bestehende Bearbeitungsmethoden können unerwünschte Veränderungen hervorrufen, wobei aufgrund des gemeinsamen Auftretens von Krankheit und Behandlungsmaßnahmen falsche Korrelationen gelernt werden, was die praktische Anwendbarkeit einschränkt. Um dies zu adressieren, trainieren wir ein Text-zu-Bild-Diffusionsmodell auf mehreren Thorax-Röntgendatensätzen und führen eine neue Bearbeitungsmethode namens RadEdit ein, die, falls vorhanden, mehrere Masken verwendet, um Änderungen einzuschränken und die Konsistenz der bearbeiteten Bilder sicherzustellen. Wir betrachten drei Arten von Datensatzverschiebungen: Erfassungsverschiebung, Manifestationsverschiebung und Bevölkerungsverschiebung, und zeigen, dass unser Ansatz Fehler diagnostizieren und die Robustheit des Modells quantifizieren kann, ohne zusätzliche Datenerfassung, und somit qualitative Werkzeuge für erklärbare KI ergänzt.
English
Biomedical imaging datasets are often small and biased, meaning that
real-world performance of predictive models can be substantially lower than
expected from internal testing. This work proposes using generative image
editing to simulate dataset shifts and diagnose failure modes of biomedical
vision models; this can be used in advance of deployment to assess readiness,
potentially reducing cost and patient harm. Existing editing methods can
produce undesirable changes, with spurious correlations learned due to the
co-occurrence of disease and treatment interventions, limiting practical
applicability. To address this, we train a text-to-image diffusion model on
multiple chest X-ray datasets and introduce a new editing method RadEdit that
uses multiple masks, if present, to constrain changes and ensure consistency in
the edited images. We consider three types of dataset shifts: acquisition
shift, manifestation shift, and population shift, and demonstrate that our
approach can diagnose failures and quantify model robustness without additional
data collection, complementing more qualitative tools for explainable AI.