Inyección de guía de imagen en modelos de difusión condicionados por texto durante la inferencia

Resumen

Los modelos de difusión texto a imagen como Stable Diffusion generan imágenes de alta calidad a partir de texto, pero carecen de una forma de inyectar guía visual (por ejemplo, bocetos, estilos) durante la inferencia sin necesidad de reentrenamiento. Los métodos existentes requieren un ajuste fino computacionalmente costoso o dependen de técnicas de transferencia de estilo que corren el riesgo de desalineación semántica con las indicaciones textuales. Presentamos Visual Concept Fusion (VCF), el primer método que ofrece condicionamiento dual tanto en una imagen como en una indicación textual en tiempo de inferencia sin ningún entrenamiento específico de concepto. VCF permite la inyección de concepto visual en Stable Diffusion al alinear las características de imagen de CLIP con el espacio de incrustación de texto. VCF consta de tres componentes: (1) un alineador ligero que mapea los tokens de imagen al manifold de incrustación de texto utilizando pérdidas de InfoNCE y de reconstrucción de atención cruzada, (2) una estrategia de fusión que preserva tanto la semántica textual como la visual, y (3) un módulo opcional de Optimización de Ruido de Indicación (Prompt-Noise Optimization, PNO) para refinamiento en tiempo de prueba. Nuestros experimentos demuestran que VCF transfiere con éxito atributos visuales como estilo, composición y paleta de colores de imágenes de referencia mientras mantiene la adherencia a la indicación. Los resultados cuantitativos muestran un equilibrio entre la alineación de texto (puntuación CLIP) y la correspondencia visual (LPIPS), con VCF superando a las líneas base en fidelidad de referencia.

English

Text-to-image diffusion models like Stable Diffusion generate high-quality images from text, but lack a way to inject visual guidance (e.g. sketches, styles) at inference without retraining. Existing methods either require computationally expensive fine-tuning or rely on style transfer techniques that risk semantic misalignment with textual prompts. We introduce Visual Concept Fusion (VCF), the first method offering dual conditioning on both an image and text prompt at inference time without any concept-specific training. VCF enables visual concept injection into Stable Diffusion by aligning CLIP image features with the text embedding space. VCF consists of three components: (1) a lightweight aligner that maps image tokens to the text embedding manifold using InfoNCE and cross-attention reconstruction losses, (2) a fusion strategy that preserves both textual and visual semantics, and (3) an optional Prompt-Noise Optimization (PNO) module for test-time refinement. Our experiments demonstrate that VCF successfully transfers visual attributes including style, composition, and color palette from reference images while maintaining prompt adherence. Quantitative results show a trade-off between text alignment (CLIP score) and visual correspondence (LPIPS), with VCF outperforming baselines in reference fidelity.