RadEdit: стресс-тестирование биомедицинских моделей компьютерного зрения с помощью редактирования изображений на основе диффузии
RadEdit: stress-testing biomedical vision models via diffusion image editing
December 20, 2023
Авторы: Fernando Pérez-García, Sam Bond-Taylor, Pedro P. Sanchez, Boris van Breugel, Daniel C. Castro, Harshita Sharma, Valentina Salvatelli, Maria T. A. Wetscherek, Hannah Richardson, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay, Maximilian Ilse
cs.AI
Аннотация
Биомедицинские наборы данных визуализации часто являются небольшими и смещенными, что означает, что реальная производительность прогностических моделей может быть значительно ниже ожидаемой при внутреннем тестировании. В данной работе предлагается использование генеративного редактирования изображений для моделирования сдвигов в наборах данных и диагностики режимов сбоя биомедицинских моделей компьютерного зрения; это может быть использовано перед развертыванием для оценки готовности, что потенциально снижает затраты и вред для пациентов. Существующие методы редактирования могут приводить к нежелательным изменениям, при этом из-за совместного появления заболеваний и медицинских вмешательств могут возникать ложные корреляции, что ограничивает практическую применимость. Для решения этой проблемы мы обучаем диффузионную модель "текст-изображение" на нескольких наборах данных рентгенограмм грудной клетки и представляем новый метод редактирования RadEdit, который использует несколько масок, если они присутствуют, для ограничения изменений и обеспечения согласованности в отредактированных изображениях. Мы рассматриваем три типа сдвигов в наборах данных: сдвиг в процессе получения данных, сдвиг в проявлении заболевания и сдвиг в популяции, и демонстрируем, что наш подход позволяет диагностировать сбои и количественно оценивать устойчивость моделей без дополнительного сбора данных, дополняя более качественные инструменты для объяснимого искусственного интеллекта.
English
Biomedical imaging datasets are often small and biased, meaning that
real-world performance of predictive models can be substantially lower than
expected from internal testing. This work proposes using generative image
editing to simulate dataset shifts and diagnose failure modes of biomedical
vision models; this can be used in advance of deployment to assess readiness,
potentially reducing cost and patient harm. Existing editing methods can
produce undesirable changes, with spurious correlations learned due to the
co-occurrence of disease and treatment interventions, limiting practical
applicability. To address this, we train a text-to-image diffusion model on
multiple chest X-ray datasets and introduce a new editing method RadEdit that
uses multiple masks, if present, to constrain changes and ensure consistency in
the edited images. We consider three types of dataset shifts: acquisition
shift, manifestation shift, and population shift, and demonstrate that our
approach can diagnose failures and quantify model robustness without additional
data collection, complementing more qualitative tools for explainable AI.