Einbringen von Bildführung in textkonditionierte Diffusionsmodelle bei der Inferenz

Zusammenfassung

Text-zu-Bild-Diffusionsmodelle wie Stable Diffusion erzeugen qualitativ hochwertige Bilder aus Text, bieten jedoch keine Möglichkeit, visuelle Führung (z. B. Skizzen, Stile) zur Inferenzzeit einzubringen, ohne ein Nachtraining zu erfordern. Bestehende Methoden benötigen entweder rechenintensives Feintuning oder basieren auf Stilübertragungstechniken, die das Risiko einer semantischen Fehlausrichtung mit Textprompts bergen. Wir stellen Visual Concept Fusion (VCF) vor, die erste Methode, die eine duale Konditionierung sowohl auf ein Bild als auch auf einen Textprompt zur Inferenzzeit ermöglicht, ohne jegliches konzeptspezifisches Training. VCF ermöglicht die Injektion visueller Konzepte in Stable Diffusion, indem CLIP-Bildmerkmale mit dem Texteinbettungsraum abgeglichen werden. VCF besteht aus drei Komponenten: (1) einem leichten Aligner, der Bildtokens mithilfe von InfoNCE- und Cross-Attention-Rekonstruktionsverlusten auf die Texteinbettungsmannigfaltigkeit abbildet, (2) einer Fusionsstrategie, die sowohl textuelle als auch visuelle Semantik bewahrt, und (3) einem optionalen Prompt-Noise-Optimierungsmodul (PNO) zur Verfeinerung zur Testzeit. Unsere Experimente zeigen, dass VCF erfolgreich visuelle Attribute einschließlich Stil, Komposition und Farbpalette von Referenzbildern überträgt, während die Bindung an den Prompt erhalten bleibt. Quantitative Ergebnisse zeigen einen Trade-off zwischen Textausrichtung (CLIP-Score) und visueller Übereinstimmung (LPIPS), wobei VCF die Basislinien in der Referenztreue übertrifft.

English

Text-to-image diffusion models like Stable Diffusion generate high-quality images from text, but lack a way to inject visual guidance (e.g. sketches, styles) at inference without retraining. Existing methods either require computationally expensive fine-tuning or rely on style transfer techniques that risk semantic misalignment with textual prompts. We introduce Visual Concept Fusion (VCF), the first method offering dual conditioning on both an image and text prompt at inference time without any concept-specific training. VCF enables visual concept injection into Stable Diffusion by aligning CLIP image features with the text embedding space. VCF consists of three components: (1) a lightweight aligner that maps image tokens to the text embedding manifold using InfoNCE and cross-attention reconstruction losses, (2) a fusion strategy that preserves both textual and visual semantics, and (3) an optional Prompt-Noise Optimization (PNO) module for test-time refinement. Our experiments demonstrate that VCF successfully transfers visual attributes including style, composition, and color palette from reference images while maintaining prompt adherence. Quantitative results show a trade-off between text alignment (CLIP score) and visual correspondence (LPIPS), with VCF outperforming baselines in reference fidelity.