MedSteer: Síntesis Endoscópica Contrafáctica mediante Direccionamiento de Activación Libre de Entrenamiento

Resumen

Los modelos de difusión generativa se utilizan cada vez más para el aumento de datos de imágenes médicas, pero los prompts de texto no pueden producir datos de entrenamiento causales. El re-prompting reinicia toda la trayectoria de generación, alterando anatomía, textura y fondo. Los métodos de edición basados en inversión introducen un error de reconstrucción que provoca deriva estructural. Proponemos MedSteer, un marco de guiado de activaciones sin entrenamiento para síntesis endoscópica. MedSteer identifica un vector de patología para cada par de prompts contrastivos en las capas de atención cruzada de un transformador de difusión. Durante la inferencia, dirige las activaciones de la imagen a lo largo de este vector, generando pares contrafactuales desde cero donde la única diferencia es el concepto guiado. Toda otra estructura se preserva por construcción. Evaluamos MedSteer en tres experimentos con Kvasir v3 e HyperKvasir. En la generación contrafactual a través de tres pares de conceptos clínicos, MedSteer logra tasas de cambio de 0.800, 0.925 y 0.950, superando al mejor baseline basado en inversión tanto en tasa de cambio conceptual como en preservación estructural. En la separación de tinte, MedSteer logra un 75% de eliminación de tinte frente al 20% (PnP) y 10% (h-Edit). En la detección de pólipos downstream, el aumento con pares contrafactuales de MedSteer logra un AUC ViT de 0.9755 versus 0.9083 para el re-prompting con cantidad equivalente, confirmando que la estructura contrafactual impulsa la mejora. El código está en https://github.com/phamtrongthang123/medsteer.

English

Generative diffusion models are increasingly used for medical imaging data augmentation, but text prompting cannot produce causal training data. Re-prompting rerolls the entire generation trajectory, altering anatomy, texture, and background. Inversion-based editing methods introduce reconstruction error that causes structural drift. We propose MedSteer, a training-free activation-steering framework for endoscopic synthesis. MedSteer identifies a pathology vector for each contrastive prompt pair in the cross-attention layers of a diffusion transformer. At inference time, it steers image activations along this vector, generating counterfactual pairs from scratch where the only difference is the steered concept. All other structure is preserved by construction. We evaluate MedSteer across three experiments on Kvasir v3 and HyperKvasir. On counterfactual generation across three clinical concept pairs, MedSteer achieves flip rates of 0.800, 0.925, and 0.950, outperforming the best inversion-based baseline in both concept flip rate and structural preservation. On dye disentanglement, MedSteer achieves 75% dye removal against 20% (PnP) and 10% (h-Edit). On downstream polyp detection, augmenting with MedSteer counterfactual pairs achieves ViT AUC of 0.9755 versus 0.9083 for quantity-matched re-prompting, confirming that counterfactual structure drives the gain. Code is at link https://github.com/phamtrongthang123/medsteer

MedSteer: Síntesis Endoscópica Contrafáctica mediante Direccionamiento de Activación Libre de Entrenamiento

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Resumen

Support