MedSteer: Контрфактуальный эндоскопический синтез с помощью беспилотного управления активациями

Аннотация

Генеративные диффузионные модели все чаще используются для аугментации данных медицинской визуализации, однако текстовые промты не позволяют создавать причинно-следственные тренировочные данные. Повторное генерирование по промту полностью изменяет траекторию генерации, искажая анатомию, текстуру и фон. Методы редактирования на основе инверсии вносят ошибку реконструкции, приводящую к структурному дрейфу. Мы предлагаем MedSteer — бестренировочный фреймворк для эндоскопического синтеза на основе управления активациями. MedSteer идентифицирует вектор патологии для каждой контрастной пары промтов в кросс-аттенционных слоях диффузионного трансформера. На этапе вывода метод направляет активации изображения вдоль этого вектора, генерируя с нуля контрафактуальные пары, в которых единственное различие заключается в управляемом концепте. Вся остальная структура сохраняется по построению. Мы оцениваем MedSteer в трех экспериментах на наборах данных Kvasir v3 и HyperKvasir. При генерации контрафактуальных данных для трех клинических пар концептов MedSteer демонстрирует частоту смены признаков 0.800, 0.925 и 0.950, превосходя лучший инверсионный базовый метод как по частоте смены концепта, так и по сохранению структуры. В задаче разделения признаков красителя MedSteer обеспечивает 75% удаления красителя против 20% (PnP) и 10% (h-Edit). При использовании в задаче детекции полипов аугментация контрафактуальными парами MedSteer достигает AUC ViT 0.9755 против 0.9083 при количественно сопоставимом повторном генерировании по промтам, что подтверждает ключевую роль контрафактуальной структуры в улучшении результатов. Код доступен по ссылке https://github.com/phamtrongthang123/medsteer

English

Generative diffusion models are increasingly used for medical imaging data augmentation, but text prompting cannot produce causal training data. Re-prompting rerolls the entire generation trajectory, altering anatomy, texture, and background. Inversion-based editing methods introduce reconstruction error that causes structural drift. We propose MedSteer, a training-free activation-steering framework for endoscopic synthesis. MedSteer identifies a pathology vector for each contrastive prompt pair in the cross-attention layers of a diffusion transformer. At inference time, it steers image activations along this vector, generating counterfactual pairs from scratch where the only difference is the steered concept. All other structure is preserved by construction. We evaluate MedSteer across three experiments on Kvasir v3 and HyperKvasir. On counterfactual generation across three clinical concept pairs, MedSteer achieves flip rates of 0.800, 0.925, and 0.950, outperforming the best inversion-based baseline in both concept flip rate and structural preservation. On dye disentanglement, MedSteer achieves 75% dye removal against 20% (PnP) and 10% (h-Edit). On downstream polyp detection, augmenting with MedSteer counterfactual pairs achieves ViT AUC of 0.9755 versus 0.9083 for quantity-matched re-prompting, confirming that counterfactual structure drives the gain. Code is at link https://github.com/phamtrongthang123/medsteer

MedSteer: Контрфактуальный эндоскопический синтез с помощью беспилотного управления активациями

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Аннотация

Support