Stilfreundlicher SNR-Sampler für stildominierte Generierung
Style-Friendly SNR Sampler for Style-Driven Generation
November 22, 2024
Autoren: Jooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon
cs.AI
Zusammenfassung
Aktuelle groß angelegte Diffusionsmodelle erzeugen hochwertige Bilder, haben jedoch Schwierigkeiten, neue, personalisierte künstlerische Stile zu erlernen, was die Erstellung einzigartiger Stilvorlagen einschränkt. Feinabstimmung mit Referenzbildern ist der vielversprechendste Ansatz, aber oft werden Ziele und Rauschniveaus, die für das Vortraining verwendet wurden, blind genutzt, was zu suboptimaler Stilausrichtung führt. Wir schlagen den Style-friendly SNR-Sampler vor, der die Signal-Rausch-Verhältnis (SNR)-Verteilung während der Feinabstimmung aggressiv in Richtung höherer Rauschniveaus verschiebt, um sich auf Rauschniveaus zu konzentrieren, in denen stilistische Merkmale auftauchen. Dies ermöglicht es Modellen, einzigartige Stile besser zu erfassen und Bilder mit höherer Stilausrichtung zu erzeugen. Unsere Methode ermöglicht es Diffusionsmodellen, neue "Stilvorlagen" zu erlernen und zu teilen, was die personalisierte Inhaltsentwicklung verbessert. Wir zeigen die Fähigkeit, Stile wie persönliche Aquarellmalereien, minimalistische flache Cartoons, 3D-Renderings, Mehrfachbildansichten und Memes mit Text zu generieren, wodurch der Bereich der stilgetriebenen Generierung erweitert wird.
English
Recent large-scale diffusion models generate high-quality images but struggle
to learn new, personalized artistic styles, which limits the creation of unique
style templates. Fine-tuning with reference images is the most promising
approach, but it often blindly utilizes objectives and noise level
distributions used for pre-training, leading to suboptimal style alignment. We
propose the Style-friendly SNR sampler, which aggressively shifts the
signal-to-noise ratio (SNR) distribution toward higher noise levels during
fine-tuning to focus on noise levels where stylistic features emerge. This
enables models to better capture unique styles and generate images with higher
style alignment. Our method allows diffusion models to learn and share new
"style templates", enhancing personalized content creation. We demonstrate the
ability to generate styles such as personal watercolor paintings, minimal flat
cartoons, 3D renderings, multi-panel images, and memes with text, thereby
broadening the scope of style-driven generation.Summary
AI-Generated Summary