MedSteer: 훈련 없이 활성화 조정을 통한 반사실적 내시경 합성
MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering
March 7, 2026
저자: Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le
cs.AI
초록
생성적 확산 모델이 의료 영상 데이터 증강에 점차 활용되고 있지만, 텍스트 프롬프팅만으로는 인과적 훈련 데이터를 생성할 수 없습니다. 재프롬프팅은 생성 경로 전체를 재설정하여 해부학적 구조, 질감 및 배경을 변경합니다. 반전 기반 편집 방법은 재구성 오류를 유발하여 구조적 변형을 초래합니다. 본 연구에서는 내시경 합성을 위한 훈련 없이 적용 가능한 활성화 조정 프레임워크인 MedSteer를 제안합니다. MedSteer는 확산 트랜스포머의 교차 주의 계층에서 각 대조 프롬프트 쌍에 대한 병리 벡터를 식별합니다. 추론 시에는 이 벡터를 따라 이미지 활성화를 조정하여, 조정된 개념만이 유일한 차이인 반사실적 쌍을 처음부터 생성합니다. 그 외 모든 구조는 구성에 의해 보존됩니다. 우리는 Kvasir v3 및 HyperKvasir 데이터셋을 이용한 세 가지 실험을 통해 MedSteer를 평가합니다. 세 가지 임상 개념 쌍에 대한 반사실적 생성에서 MedSteer는 0.800, 0.925, 0.950의 반전 비율을 달성하여 개념 반전 비율과 구조 보존 측면에서 최고의 반전 기반 기준 방법을 능가했습니다. 염료 분리 실험에서 MedSteer는 75%의 염료 제거율을 달성한 반면, PnP는 20%, h-Edit는 10%의 성능을 보였습니다. 하류 작업인 용종 검출에서 MedSteer 반사실적 쌍을 사용한 데이터 증강은 ViT AUC 0.9755를 달성하여, 양적으로 동일하게 재프롬프팅한 경우의 AUC 0.9083보다 우수하였으며, 반사실적 구조 보존이 성능 향상의 핵심임을 확인했습니다. 코드는 https://github.com/phamtrongthang123/medsteer 에서 확인할 수 있습니다.
English
Generative diffusion models are increasingly used for medical imaging data augmentation, but text prompting cannot produce causal training data. Re-prompting rerolls the entire generation trajectory, altering anatomy, texture, and background. Inversion-based editing methods introduce reconstruction error that causes structural drift. We propose MedSteer, a training-free activation-steering framework for endoscopic synthesis. MedSteer identifies a pathology vector for each contrastive prompt pair in the cross-attention layers of a diffusion transformer. At inference time, it steers image activations along this vector, generating counterfactual pairs from scratch where the only difference is the steered concept. All other structure is preserved by construction. We evaluate MedSteer across three experiments on Kvasir v3 and HyperKvasir. On counterfactual generation across three clinical concept pairs, MedSteer achieves flip rates of 0.800, 0.925, and 0.950, outperforming the best inversion-based baseline in both concept flip rate and structural preservation. On dye disentanglement, MedSteer achieves 75% dye removal against 20% (PnP) and 10% (h-Edit). On downstream polyp detection, augmenting with MedSteer counterfactual pairs achieves ViT AUC of 0.9755 versus 0.9083 for quantity-matched re-prompting, confirming that counterfactual structure drives the gain. Code is at link https://github.com/phamtrongthang123/medsteer