추론 시 텍스트 조건부 확산 모델에 이미지 가이던스 주입
Injecting Image Guidance into Text-Conditioned Diffusion Models at Inference
May 24, 2026
저자: Agata Żywot, Iason Skylitsis, Thijmen Nijdam, Zoe Tzifa-Kratira, Derck Prinzhorn, Konrad Szewczyk, Aritra Bhowmik
cs.AI
초록
텍스트-이미지 확산 모델(예: Stable Diffusion)은 텍스트로부터 고품질 이미지를 생성하지만, 추론 시 재학습 없이 시각적 안내(예: 스케치, 스타일)를 주입할 방법이 부재하다. 기존 방법은 계산 비용이 많이 드는 미세 조정을 필요로 하거나, 텍스트 프롬프트와의 의미적 불일치 위험이 있는 스타일 전이 기법에 의존한다. 본 논문에서는 개념별 학습 없이 추론 시점에 이미지와 텍스트 프롬프트 모두에 대한 이중 조건화를 제공하는 최초의 방법인 시각적 개념 융합(VCF)을 소개한다. VCF는 CLIP 이미지 특징을 텍스트 임베딩 공간에 정렬함으로써 시각적 개념을 Stable Diffusion에 주입할 수 있게 한다. VCF는 세 가지 구성 요소로 이루어져 있다: (1) InfoNCE 및 교차 주의 재구성 손실을 사용하여 이미지 토큰을 텍스트 임베딩 다양체에 매핑하는 경량 정렬기, (2) 텍스트 및 시각 의미 모두를 보존하는 융합 전략, (3) 테스트 시간 정제를 위한 선택적 프롬프트-잡음 최적화(PNO) 모듈. 실험 결과, VCF가 프롬프트 준수를 유지하면서 참조 이미지의 스타일, 구성, 색상 팔레트를 포함한 시각적 속성을 성공적으로 전이함을 보여준다. 정량적 결과는 텍스트 정렬(CLIP 점수)과 시각적 대응(LPIPS) 사이의 균형을 나타내며, VCF는 참조 충실도에서 기준 모델을 능가한다.
English
Text-to-image diffusion models like Stable Diffusion generate high-quality images from text, but lack a way to inject visual guidance (e.g. sketches, styles) at inference without retraining. Existing methods either require computationally expensive fine-tuning or rely on style transfer techniques that risk semantic misalignment with textual prompts. We introduce Visual Concept Fusion (VCF), the first method offering dual conditioning on both an image and text prompt at inference time without any concept-specific training. VCF enables visual concept injection into Stable Diffusion by aligning CLIP image features with the text embedding space. VCF consists of three components: (1) a lightweight aligner that maps image tokens to the text embedding manifold using InfoNCE and cross-attention reconstruction losses, (2) a fusion strategy that preserves both textual and visual semantics, and (3) an optional Prompt-Noise Optimization (PNO) module for test-time refinement. Our experiments demonstrate that VCF successfully transfers visual attributes including style, composition, and color palette from reference images while maintaining prompt adherence. Quantitative results show a trade-off between text alignment (CLIP score) and visual correspondence (LPIPS), with VCF outperforming baselines in reference fidelity.