RadEdit : test de résistance des modèles de vision biomédicale via l'édition d'images par diffusion
RadEdit: stress-testing biomedical vision models via diffusion image editing
December 20, 2023
Auteurs: Fernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse
cs.AI
Résumé
Les ensembles de données d'imagerie biomédicale sont souvent de petite taille et biaisés, ce qui signifie que les performances réelles des modèles prédictifs peuvent être considérablement inférieures à celles attendues lors des tests internes. Ce travail propose d'utiliser l'édition générative d'images pour simuler des décalages de jeux de données et diagnostiquer les modes de défaillance des modèles de vision biomédicale ; cela peut être utilisé avant le déploiement pour évaluer la préparation, réduisant potentiellement les coûts et les risques pour les patients. Les méthodes d'édition existantes peuvent produire des modifications indésirables, avec des corrélations fallacieuses apprises en raison de la co-occurrence de maladies et d'interventions thérapeutiques, limitant ainsi leur applicabilité pratique. Pour remédier à cela, nous entraînons un modèle de diffusion texte-image sur plusieurs ensembles de radiographies thoraciques et introduisons une nouvelle méthode d'édition, RadEdit, qui utilise plusieurs masques, s'ils sont présents, pour contraindre les modifications et assurer la cohérence des images éditées. Nous considérons trois types de décalages de jeux de données : le décalage d'acquisition, le décalage de manifestation et le décalage de population, et démontrons que notre approche peut diagnostiquer les échecs et quantifier la robustesse des modèles sans collecte de données supplémentaires, complétant ainsi les outils plus qualitatifs pour l'IA explicable.
English
Biomedical imaging datasets are often small and biased, meaning that
real-world performance of predictive models can be substantially lower than
expected from internal testing. This work proposes using generative image
editing to simulate dataset shifts and diagnose failure modes of biomedical
vision models; this can be used in advance of deployment to assess readiness,
potentially reducing cost and patient harm. Existing editing methods can
produce undesirable changes, with spurious correlations learned due to the
co-occurrence of disease and treatment interventions, limiting practical
applicability. To address this, we train a text-to-image diffusion model on
multiple chest X-ray datasets and introduce a new editing method RadEdit that
uses multiple masks, if present, to constrain changes and ensure consistency in
the edited images. We consider three types of dataset shifts: acquisition
shift, manifestation shift, and population shift, and demonstrate that our
approach can diagnose failures and quantify model robustness without additional
data collection, complementing more qualitative tools for explainable AI.