MedSteer: Síntese Endoscópica Contrafactual via Direcionamento de Ativação Livre de Treinamento
MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering
March 7, 2026
Autores: Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le
cs.AI
Resumo
Os modelos generativos de difusão são cada vez mais utilizados para aumento de dados em imagens médicas, mas a geração por prompts textuais não pode produzir dados de treinamento causais. O re-prompting reinicia toda a trajetória de geração, alterando anatomia, textura e fundo. Métodos de edição baseados em inversão introduzem erro de reconstrução que causa desvio estrutural. Propomos o MedSteer, uma estrutura de direcionamento de ativação sem treinamento para síntese endoscópica. O MedSteer identifica um vetor de patologia para cada par de prompts contrastantes nas camadas de atenção cruzada de um transformador de difusão. No momento da inferência, ele direciona as ativações da imagem ao longo deste vetor, gerando pares contrafactuais do zero onde a única diferença é o conceito direcionado. Todas as outras estruturas são preservadas por construção. Avaliamos o MedSteer em três experimentos com Kvasir v3 e HyperKvasir. Na geração contrafactual em três pares de conceitos clínicos, o MedSteer alcança taxas de alternância de 0,800, 0,925 e 0,950, superando a melhor linha de base baseada em inversão tanto na taxa de alternância de conceito quanto na preservação estrutural. No desacoplamento de corante, o MedSteer alcança 75% de remoção de corante contra 20% (PnP) e 10% (h-Edit). Na detecção downstream de pólipos, aumentar com pares contrafactuais do MedSteer alcança AUC ViT de 0,9755 versus 0,9083 para re-prompting com quantidade equivalente, confirmando que a estrutura contrafactual impulsiona o ganho. O código está em https://github.com/phamtrongthang123/medsteer.
English
Generative diffusion models are increasingly used for medical imaging data augmentation, but text prompting cannot produce causal training data. Re-prompting rerolls the entire generation trajectory, altering anatomy, texture, and background. Inversion-based editing methods introduce reconstruction error that causes structural drift. We propose MedSteer, a training-free activation-steering framework for endoscopic synthesis. MedSteer identifies a pathology vector for each contrastive prompt pair in the cross-attention layers of a diffusion transformer. At inference time, it steers image activations along this vector, generating counterfactual pairs from scratch where the only difference is the steered concept. All other structure is preserved by construction. We evaluate MedSteer across three experiments on Kvasir v3 and HyperKvasir. On counterfactual generation across three clinical concept pairs, MedSteer achieves flip rates of 0.800, 0.925, and 0.950, outperforming the best inversion-based baseline in both concept flip rate and structural preservation. On dye disentanglement, MedSteer achieves 75% dye removal against 20% (PnP) and 10% (h-Edit). On downstream polyp detection, augmenting with MedSteer counterfactual pairs achieves ViT AUC of 0.9755 versus 0.9083 for quantity-matched re-prompting, confirming that counterfactual structure drives the gain. Code is at link https://github.com/phamtrongthang123/medsteer