RadEdit: Belastungstests für biomedizinische Bildverarbeitungsmodelle durch Diffusion-basierte Bildbearbeitung

papers.abstract

Biomedische Bilddatensätze sind oft klein und verzerrt, was bedeutet, dass die reale Leistung von Vorhersagemodellen erheblich geringer ausfallen kann als bei internen Tests erwartet. Diese Arbeit schlägt vor, generative Bildbearbeitung zu verwenden, um Datensatzverschiebungen zu simulieren und Fehlermodi biomedizinischer Bildverarbeitungsmodelle zu diagnostizieren; dies kann vor der Bereitstellung genutzt werden, um die Einsatzbereitschaft zu bewerten und potenziell Kosten und Patientenschäden zu reduzieren. Bestehende Bearbeitungsmethoden können unerwünschte Veränderungen hervorrufen, wobei aufgrund des gemeinsamen Auftretens von Krankheit und Behandlungsmaßnahmen falsche Korrelationen gelernt werden, was die praktische Anwendbarkeit einschränkt. Um dies zu adressieren, trainieren wir ein Text-zu-Bild-Diffusionsmodell auf mehreren Thorax-Röntgendatensätzen und führen eine neue Bearbeitungsmethode namens RadEdit ein, die, falls vorhanden, mehrere Masken verwendet, um Änderungen einzuschränken und die Konsistenz der bearbeiteten Bilder sicherzustellen. Wir betrachten drei Arten von Datensatzverschiebungen: Erfassungsverschiebung, Manifestationsverschiebung und Bevölkerungsverschiebung, und zeigen, dass unser Ansatz Fehler diagnostizieren und die Robustheit des Modells quantifizieren kann, ohne zusätzliche Datenerfassung, und somit qualitative Werkzeuge für erklärbare KI ergänzt.

English

Biomedical imaging datasets are often small and biased, meaning that real-world performance of predictive models can be substantially lower than expected from internal testing. This work proposes using generative image editing to simulate dataset shifts and diagnose failure modes of biomedical vision models; this can be used in advance of deployment to assess readiness, potentially reducing cost and patient harm. Existing editing methods can produce undesirable changes, with spurious correlations learned due to the co-occurrence of disease and treatment interventions, limiting practical applicability. To address this, we train a text-to-image diffusion model on multiple chest X-ray datasets and introduce a new editing method RadEdit that uses multiple masks, if present, to constrain changes and ensure consistency in the edited images. We consider three types of dataset shifts: acquisition shift, manifestation shift, and population shift, and demonstrate that our approach can diagnose failures and quantify model robustness without additional data collection, complementing more qualitative tools for explainable AI.

RadEdit: Belastungstests für biomedizinische Bildverarbeitungsmodelle durch Diffusion-basierte Bildbearbeitung

RadEdit: stress-testing biomedical vision models via diffusion image editing

papers.abstract

Support