Injetando Orientação de Imagem em Modelos de Difusão Condicionados por Texto na Inferência

Resumo

Modelos de difusão texto-imagem como o Stable Diffusion geram imagens de alta qualidade a partir de texto, mas carecem de uma forma de injetar orientação visual (por exemplo, esboços, estilos) durante a inferência sem retreinamento. Métodos existentes exigem ajuste fino computacionalmente caro ou dependem de técnicas de transferência de estilo que correm o risco de desalinhamento semântico com os prompts textuais. Apresentamos a Fusão de Conceitos Visuais (VCF), o primeiro método que oferece condicionamento duplo tanto em uma imagem quanto em um prompt textual no momento da inferência, sem qualquer treinamento específico de conceito. O VCF possibilita a injeção de conceitos visuais no Stable Diffusion alinhando características de imagem do CLIP com o espaço de embeddings de texto. O VCF consiste em três componentes: (1) um alinhador leve que mapeia tokens de imagem para a variedade de embeddings de texto usando InfoNCE e perdas de reconstrução por atenção cruzada, (2) uma estratégia de fusão que preserva tanto a semântica textual quanto a visual, e (3) um módulo opcional de Otimização de Ruído do Prompt (PNO) para refinamento em tempo de teste. Nossos experimentos demonstram que o VCF transfere com sucesso atributos visuais, incluindo estilo, composição e paleta de cores de imagens de referência, mantendo a aderência ao prompt. Resultados quantitativos mostram um trade-off entre alinhamento textual (pontuação CLIP) e correspondência visual (LPIPS), com o VCF superando as linhas de base em fidelidade de referência.

English

Text-to-image diffusion models like Stable Diffusion generate high-quality images from text, but lack a way to inject visual guidance (e.g. sketches, styles) at inference without retraining. Existing methods either require computationally expensive fine-tuning or rely on style transfer techniques that risk semantic misalignment with textual prompts. We introduce Visual Concept Fusion (VCF), the first method offering dual conditioning on both an image and text prompt at inference time without any concept-specific training. VCF enables visual concept injection into Stable Diffusion by aligning CLIP image features with the text embedding space. VCF consists of three components: (1) a lightweight aligner that maps image tokens to the text embedding manifold using InfoNCE and cross-attention reconstruction losses, (2) a fusion strategy that preserves both textual and visual semantics, and (3) an optional Prompt-Noise Optimization (PNO) module for test-time refinement. Our experiments demonstrate that VCF successfully transfers visual attributes including style, composition, and color palette from reference images while maintaining prompt adherence. Quantitative results show a trade-off between text alignment (CLIP score) and visual correspondence (LPIPS), with VCF outperforming baselines in reference fidelity.