MedSteer: Kontrafaktische endoskopische Synthese durch trainingsfreie Aktivierungssteuerung

Zusammenfassung

Generative Diffusionsmodelle werden zunehmend zur Datenanreicherung in der medizinischen Bildgebung eingesetzt, jedoch können Text-Prompts keine kausalen Trainingsdaten erzeugen. Neues Prompten startet den gesamten Generierungspfad neu und verändert dabei Anatomie, Textur und Hintergrund. Bearbeitungsmethoden auf Inversionsbasis führen Rekonstruktionsfehler ein, die strukturelle Abweichungen verursachen. Wir stellen MedSteer vor, ein trainierungsfreies Framework zur Aktivierungssteuerung für die endoskopische Synthese. MedSteer identifiziert einen Pathologie-Vektor für jedes kontrastive Prompt-Paar in den Cross-Attention-Schichten eines Diffusion Transformers. Zur Inferenzzeit lenkt es die Bildaktivierungen entlang dieses Vektors und erzeugt dabei von Grund auf kontrafaktische Paare, bei denen der einzige Unterschied das gesteuerte Konzept ist. Alle anderen Strukturen bleiben durch die Konstruktion erhalten. Wir evaluieren MedSteer in drei Experimenten mit Kvasir v3 und HyperKvasir. Bei der kontrafaktischen Generierung über drei klinische Konzeptpaare erreicht MedSteer Flip-Raten von 0,800, 0,925 und 0,950 und übertrifft damit die beste inversionsbasierte Baseline sowohl in der Konzept-Flip-Rate als auch in der Strukturerhaltung. Bei der Entwirrung von Färbungen erreicht MedSteer eine 75%ige Entfernungsrate gegenüber 20% (PnP) und 10% (h-Edit). Beim nachgelagerten Polypennachweis erzielt eine Anreicherung mit MedSteer-Kontrafaktika eine ViT-AUC von 0,9755 gegenüber 0,9083 für mengenmäßig angepasstes Neuprompten, was bestätigt, dass die kontrafaktische Struktur den Gewinn treibt. Code ist unter https://github.com/phamtrongthang123/medsteer verfügbar.

English

Generative diffusion models are increasingly used for medical imaging data augmentation, but text prompting cannot produce causal training data. Re-prompting rerolls the entire generation trajectory, altering anatomy, texture, and background. Inversion-based editing methods introduce reconstruction error that causes structural drift. We propose MedSteer, a training-free activation-steering framework for endoscopic synthesis. MedSteer identifies a pathology vector for each contrastive prompt pair in the cross-attention layers of a diffusion transformer. At inference time, it steers image activations along this vector, generating counterfactual pairs from scratch where the only difference is the steered concept. All other structure is preserved by construction. We evaluate MedSteer across three experiments on Kvasir v3 and HyperKvasir. On counterfactual generation across three clinical concept pairs, MedSteer achieves flip rates of 0.800, 0.925, and 0.950, outperforming the best inversion-based baseline in both concept flip rate and structural preservation. On dye disentanglement, MedSteer achieves 75% dye removal against 20% (PnP) and 10% (h-Edit). On downstream polyp detection, augmenting with MedSteer counterfactual pairs achieves ViT AUC of 0.9755 versus 0.9083 for quantity-matched re-prompting, confirming that counterfactual structure drives the gain. Code is at link https://github.com/phamtrongthang123/medsteer

MedSteer: Kontrafaktische endoskopische Synthese durch trainingsfreie Aktivierungssteuerung

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Zusammenfassung

Support