ChatPaper.aiChatPaper

RadEdit : test de résistance des modèles de vision biomédicale via l'édition d'images par diffusion

RadEdit: stress-testing biomedical vision models via diffusion image editing

December 20, 2023
Auteurs: Fernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse
cs.AI

Résumé

Les ensembles de données d'imagerie biomédicale sont souvent de petite taille et biaisés, ce qui signifie que les performances réelles des modèles prédictifs peuvent être considérablement inférieures à celles attendues lors des tests internes. Ce travail propose d'utiliser l'édition générative d'images pour simuler des décalages de jeux de données et diagnostiquer les modes de défaillance des modèles de vision biomédicale ; cela peut être utilisé avant le déploiement pour évaluer la préparation, réduisant potentiellement les coûts et les risques pour les patients. Les méthodes d'édition existantes peuvent produire des modifications indésirables, avec des corrélations fallacieuses apprises en raison de la co-occurrence de maladies et d'interventions thérapeutiques, limitant ainsi leur applicabilité pratique. Pour remédier à cela, nous entraînons un modèle de diffusion texte-image sur plusieurs ensembles de radiographies thoraciques et introduisons une nouvelle méthode d'édition, RadEdit, qui utilise plusieurs masques, s'ils sont présents, pour contraindre les modifications et assurer la cohérence des images éditées. Nous considérons trois types de décalages de jeux de données : le décalage d'acquisition, le décalage de manifestation et le décalage de population, et démontrons que notre approche peut diagnostiquer les échecs et quantifier la robustesse des modèles sans collecte de données supplémentaires, complétant ainsi les outils plus qualitatifs pour l'IA explicable.
English
Biomedical imaging datasets are often small and biased, meaning that real-world performance of predictive models can be substantially lower than expected from internal testing. This work proposes using generative image editing to simulate dataset shifts and diagnose failure modes of biomedical vision models; this can be used in advance of deployment to assess readiness, potentially reducing cost and patient harm. Existing editing methods can produce undesirable changes, with spurious correlations learned due to the co-occurrence of disease and treatment interventions, limiting practical applicability. To address this, we train a text-to-image diffusion model on multiple chest X-ray datasets and introduce a new editing method RadEdit that uses multiple masks, if present, to constrain changes and ensure consistency in the edited images. We consider three types of dataset shifts: acquisition shift, manifestation shift, and population shift, and demonstrate that our approach can diagnose failures and quantify model robustness without additional data collection, complementing more qualitative tools for explainable AI.
PDF50December 15, 2024