MedSteer:トレーニング不要な活性化操作による反実仮想内視鏡合成
MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering
March 7, 2026
著者: Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le
cs.AI
要旨
医療画像データ拡張における拡散モデルの利用が増加しているが、テキストプロンプトでは因果的トレーニングデータを生成できない。再プロンプトでは生成軌道全体が再実行され、解剖学的構造、テクスチャ、背景が変化してしまう。反転ベースの編集手法では再構成誤差が生じ、構造的ドリフトを引き起こす。我々は内視鏡合成のための学習不要な活性化誘導フレームワークMedSteerを提案する。MedSteerはDiffusion Transformerのクロスアテンション層において、対照的プロンプトペアごとに病理ベクトルを特定する。推論時には、このベクトルに沿って画像活性化を誘導し、唯一の違いが誘導された概念である反事実的ペアをゼロから生成する。その他すべての構造は構成的に保存される。Kvasir v3とHyperKvasirを用いた3つの実験でMedSteerを評価した。3つの臨床概念ペアにわたる反事実的生成では、MedSteerは0.800、0.925、0.950のフリップ率を達成し、概念フリップ率と構造保存の両方で最良の反転ベースベースラインを上回った。色素分離タスクでは、MedSteerは75%の色素除去率を達成し(PnPは20%、h-Editは10%)、ポリープ検知の下流タスクでは、MedSteerの反事実的ペアで拡張した場合、ViTのAUCが0.9755となり、量を合わせた再プロンプト(0.9083)を上回り、反事実的構造が性能向上の要因であることを確認した。コードはhttps://github.com/phamtrongthang123/medsteer で公開されている。
English
Generative diffusion models are increasingly used for medical imaging data augmentation, but text prompting cannot produce causal training data. Re-prompting rerolls the entire generation trajectory, altering anatomy, texture, and background. Inversion-based editing methods introduce reconstruction error that causes structural drift. We propose MedSteer, a training-free activation-steering framework for endoscopic synthesis. MedSteer identifies a pathology vector for each contrastive prompt pair in the cross-attention layers of a diffusion transformer. At inference time, it steers image activations along this vector, generating counterfactual pairs from scratch where the only difference is the steered concept. All other structure is preserved by construction. We evaluate MedSteer across three experiments on Kvasir v3 and HyperKvasir. On counterfactual generation across three clinical concept pairs, MedSteer achieves flip rates of 0.800, 0.925, and 0.950, outperforming the best inversion-based baseline in both concept flip rate and structural preservation. On dye disentanglement, MedSteer achieves 75% dye removal against 20% (PnP) and 10% (h-Edit). On downstream polyp detection, augmenting with MedSteer counterfactual pairs achieves ViT AUC of 0.9755 versus 0.9083 for quantity-matched re-prompting, confirming that counterfactual structure drives the gain. Code is at link https://github.com/phamtrongthang123/medsteer