ChatPaper.aiChatPaper

Stilausgerichtete Bildgenerierung durch gemeinsame Aufmerksamkeit

Style Aligned Image Generation via Shared Attention

December 4, 2023
Autoren: Amir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or
cs.AI

Zusammenfassung

Groß angelegte Text-zu-Bild (T2I)-Modelle haben in kreativen Bereichen schnell an Bedeutung gewonnen, indem sie visuell ansprechende Ergebnisse aus textuellen Eingabeaufforderungen erzeugen. Die Kontrolle dieser Modelle, um einen konsistenten Stil zu gewährleisten, bleibt jedoch eine Herausforderung, da bestehende Methoden Feinabstimmung und manuelle Eingriffe erfordern, um Inhalt und Stil zu entwirren. In diesem Artikel stellen wir StyleAligned vor, eine neuartige Technik, die darauf abzielt, eine Stilausrichtung innerhalb einer Reihe generierter Bilder zu erreichen. Durch den Einsatz minimaler „Attention Sharing“ während des Diffusionsprozesses gewährleistet unsere Methode die Stilkonsistenz über Bilder hinweg in T2I-Modellen. Dieser Ansatz ermöglicht die Erstellung stilkonformer Bilder mithilfe eines Referenzstils durch eine einfache Inversionsoperation. Die Bewertung unserer Methode über verschiedene Stile und Textaufforderungen hinweg zeigt eine hochwertige Synthese und Treue, was ihre Wirksamkeit bei der Erzielung eines konsistenten Stils über verschiedene Eingaben hinweg unterstreicht.
English
Large-scale Text-to-Image (T2I) models have rapidly gained prominence across creative fields, generating visually compelling outputs from textual prompts. However, controlling these models to ensure consistent style remains challenging, with existing methods necessitating fine-tuning and manual intervention to disentangle content and style. In this paper, we introduce StyleAligned, a novel technique designed to establish style alignment among a series of generated images. By employing minimal `attention sharing' during the diffusion process, our method maintains style consistency across images within T2I models. This approach allows for the creation of style-consistent images using a reference style through a straightforward inversion operation. Our method's evaluation across diverse styles and text prompts demonstrates high-quality synthesis and fidelity, underscoring its efficacy in achieving consistent style across various inputs.
PDF111December 15, 2024