MedSteer : Synthèse endoscopique contrefactuelle par pilotage d'activation sans entraînement

Résumé

Les modèles de diffusion générative sont de plus en plus utilisés pour l'augmentation de données en imagerie médicale, mais l'incitation textuelle ne peut pas produire des données d'entraînement causales. Le ré-*prompting* relance toute la trajectoire de génération, modifiant l'anatomie, la texture et l'arrière-plan. Les méthodes d'édition basées sur l'inversion introduisent une erreur de reconstruction qui entraîne une dérive structurelle. Nous proposons MedSteer, un cadre d'orientation des activations sans entraînement pour la synthèse endoscopique. MedSteer identifie un vecteur de pathologie pour chaque paire d'invites contrastives dans les couches d'attention croisée d'un transformeur de diffusion. Au moment de l'inférence, il oriente les activations de l'image le long de ce vecteur, générant des paires contrefactuelles à partir de zéro où la seule différence est le concept orienté. Toute autre structure est préservée par construction. Nous évaluons MedSteer sur trois expériences utilisant Kvasir v3 et HyperKvasir. Sur la génération contrefactuelle pour trois paires de concepts cliniques, MedSteer atteint des taux de basculement de 0,800, 0,925 et 0,950, surpassant la meilleure méthode de référence basée sur l'inversion à la fois en taux de basculement conceptuel et en préservation structurelle. Sur la dissociation des colorants, MedSteer réalise 75 % de suppression de colorant contre 20 % (PnP) et 10 % (h-Edit). Sur la détection aval de polypes, l'augmentation avec les paires contrefactuelles de MedSteer atteint une AUC ViT de 0,9755 contre 0,9083 pour le ré-*prompting* avec une quantité équivalente, confirmant que la structure contrefactuelle est à l'origine du gain. Le code est disponible à l'adresse : https://github.com/phamtrongthang123/medsteer

English

Generative diffusion models are increasingly used for medical imaging data augmentation, but text prompting cannot produce causal training data. Re-prompting rerolls the entire generation trajectory, altering anatomy, texture, and background. Inversion-based editing methods introduce reconstruction error that causes structural drift. We propose MedSteer, a training-free activation-steering framework for endoscopic synthesis. MedSteer identifies a pathology vector for each contrastive prompt pair in the cross-attention layers of a diffusion transformer. At inference time, it steers image activations along this vector, generating counterfactual pairs from scratch where the only difference is the steered concept. All other structure is preserved by construction. We evaluate MedSteer across three experiments on Kvasir v3 and HyperKvasir. On counterfactual generation across three clinical concept pairs, MedSteer achieves flip rates of 0.800, 0.925, and 0.950, outperforming the best inversion-based baseline in both concept flip rate and structural preservation. On dye disentanglement, MedSteer achieves 75% dye removal against 20% (PnP) and 10% (h-Edit). On downstream polyp detection, augmenting with MedSteer counterfactual pairs achieves ViT AUC of 0.9755 versus 0.9083 for quantity-matched re-prompting, confirming that counterfactual structure drives the gain. Code is at link https://github.com/phamtrongthang123/medsteer

MedSteer : Synthèse endoscopique contrefactuelle par pilotage d'activation sans entraînement

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Résumé

Support