MedSteer: Contrafeit Endoscopisch Synthese via Trainingsvrije Activatiesturing

Samenvatting

Generatieve diffusiemodellen worden steeds vaker gebruikt voor data-augmentatie in medische beeldvorming, maar tekstprompts kunnen geen causale trainingsdata produceren. Opnieuw prompten herstart het volledige generatietraject, waarbij anatomie, textuur en achtergrond veranderen. Op inversie gebaseerde bewerkingsmethoden introduceren reconstructiefouten die structurele drift veroorzaken. Wij stellen MedSteer voor, een trainingsvrij activatie-stuurraamwerk voor endoscopische synthese. MedSteer identificeert een pathologievector voor elk contrastief promptpaar in de cross-attention lagen van een diffusietransformer. Tijdens inferentie stuurt het de beeldactivaties langs deze vector, waarbij tegenfactuele paren vanaf nul worden gegenereerd waarin het enige verschil het gestuurde concept is. Alle andere structuren worden door constructie behouden. Wij evalueren MedSteer in drie experimenten met Kvasir v3 en HyperKvasir. Bij tegenfactuele generatie over drie klinische conceptparen behaalt MedSteer flip rates van 0.800, 0.925 en 0.950, en overtreft daarmee de beste op inversie gebaseerde baseline in zowel concept flip rate als structureel behoud. Bij ontwarring van contrastvloeistof bereikt MedSteer 75% verwijdering tegenover 20% (PnP) en 10% (h-Edit). Bij downstream poliepdetectie bereikt augmentatie met MedSteer tegenfactuele paren een ViT AUC van 0.9755 versus 0.9083 voor kwantitatief gelijkwaardig opnieuw prompten, wat bevestigt dat tegenfactuele structuur de winst drijft. Code staat op https://github.com/phamtrongthang123/medsteer

English

Generative diffusion models are increasingly used for medical imaging data augmentation, but text prompting cannot produce causal training data. Re-prompting rerolls the entire generation trajectory, altering anatomy, texture, and background. Inversion-based editing methods introduce reconstruction error that causes structural drift. We propose MedSteer, a training-free activation-steering framework for endoscopic synthesis. MedSteer identifies a pathology vector for each contrastive prompt pair in the cross-attention layers of a diffusion transformer. At inference time, it steers image activations along this vector, generating counterfactual pairs from scratch where the only difference is the steered concept. All other structure is preserved by construction. We evaluate MedSteer across three experiments on Kvasir v3 and HyperKvasir. On counterfactual generation across three clinical concept pairs, MedSteer achieves flip rates of 0.800, 0.925, and 0.950, outperforming the best inversion-based baseline in both concept flip rate and structural preservation. On dye disentanglement, MedSteer achieves 75% dye removal against 20% (PnP) and 10% (h-Edit). On downstream polyp detection, augmenting with MedSteer counterfactual pairs achieves ViT AUC of 0.9755 versus 0.9083 for quantity-matched re-prompting, confirming that counterfactual structure drives the gain. Code is at link https://github.com/phamtrongthang123/medsteer

MedSteer: Contrafeit Endoscopisch Synthese via Trainingsvrije Activatiesturing

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Samenvatting

Support