Injection de guidage par image dans les modèles de diffusion conditionnés par texte lors de l'inférence

Résumé

Les modèles de diffusion texte-image comme Stable Diffusion génèrent des images de haute qualité à partir de texte, mais ne permettent pas d'injecter un guidage visuel (par exemple, croquis, styles) lors de l'inférence sans réentraînement. Les méthodes existantes nécessitent soit un réglage fin coûteux en calcul, soit reposent sur des techniques de transfert de style qui risquent un désalignement sémantique avec les indications textuelles. Nous introduisons Visual Concept Fusion (VCF), la première méthode offrant un double conditionnement à la fois sur une image et une indication textuelle lors de l'inférence sans aucun entraînement spécifique au concept. VCF permet l'injection de concepts visuels dans Stable Diffusion en alignant les caractéristiques d'image CLIP avec l'espace de plongement textuel. VCF se compose de trois composants : (1) un aligneur léger qui projette les tokens d'image sur la variété de plongement textuel en utilisant les pertes InfoNCE et de reconstruction par attention croisée, (2) une stratégie de fusion qui préserve à la fois les sémantiques textuelle et visuelle, et (3) un module optionnel d'Optimisation Indication-Bruit (Prompt-Noise Optimization, PNO) pour un raffinement au moment du test. Nos expériences démontrent que VCF transfère avec succès des attributs visuels incluant le style, la composition et la palette de couleurs à partir d'images de référence tout en maintenant l'adhérence à l'indication. Les résultats quantitatifs montrent un compromis entre l'alignement textuel (score CLIP) et la correspondance visuelle (LPIPS), VCF surpassant les références en termes de fidélité à l'image de référence.

English

Text-to-image diffusion models like Stable Diffusion generate high-quality images from text, but lack a way to inject visual guidance (e.g. sketches, styles) at inference without retraining. Existing methods either require computationally expensive fine-tuning or rely on style transfer techniques that risk semantic misalignment with textual prompts. We introduce Visual Concept Fusion (VCF), the first method offering dual conditioning on both an image and text prompt at inference time without any concept-specific training. VCF enables visual concept injection into Stable Diffusion by aligning CLIP image features with the text embedding space. VCF consists of three components: (1) a lightweight aligner that maps image tokens to the text embedding manifold using InfoNCE and cross-attention reconstruction losses, (2) a fusion strategy that preserves both textual and visual semantics, and (3) an optional Prompt-Noise Optimization (PNO) module for test-time refinement. Our experiments demonstrate that VCF successfully transfers visual attributes including style, composition, and color palette from reference images while maintaining prompt adherence. Quantitative results show a trade-off between text alignment (CLIP score) and visual correspondence (LPIPS), with VCF outperforming baselines in reference fidelity.