Échantillonneur SNR convivial pour la génération pilotée par le style
Style-Friendly SNR Sampler for Style-Driven Generation
November 22, 2024
Auteurs: Jooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon
cs.AI
Résumé
Les récents modèles de diffusion à grande échelle génèrent des images de haute qualité mais rencontrent des difficultés pour apprendre de nouveaux styles artistiques personnalisés, ce qui limite la création de modèles de style uniques. Le réglage fin avec des images de référence est l'approche la plus prometteuse, mais elle utilise souvent de manière aveugle les objectifs et les distributions de niveaux de bruit utilisés pour l'entraînement préalable, ce qui conduit à un alignement de style sous-optimal. Nous proposons l'échantillonneur Style-friendly SNR, qui déplace de manière agressive la distribution du rapport signal sur bruit (SNR) vers des niveaux de bruit plus élevés lors du réglage fin pour se concentrer sur les niveaux de bruit où les caractéristiques stylistiques émergent. Cela permet aux modèles de mieux capturer des styles uniques et de générer des images avec un alignement de style plus élevé. Notre méthode permet aux modèles de diffusion d'apprendre et de partager de nouveaux "modèles de style", améliorant la création de contenu personnalisé. Nous démontrons la capacité à générer des styles tels que des peintures aquarelles personnelles, des dessins animés plats minimalistes, des rendus 3D, des images multi-panneaux et des mèmes avec du texte, élargissant ainsi la portée de la génération basée sur le style.
English
Recent large-scale diffusion models generate high-quality images but struggle
to learn new, personalized artistic styles, which limits the creation of unique
style templates. Fine-tuning with reference images is the most promising
approach, but it often blindly utilizes objectives and noise level
distributions used for pre-training, leading to suboptimal style alignment. We
propose the Style-friendly SNR sampler, which aggressively shifts the
signal-to-noise ratio (SNR) distribution toward higher noise levels during
fine-tuning to focus on noise levels where stylistic features emerge. This
enables models to better capture unique styles and generate images with higher
style alignment. Our method allows diffusion models to learn and share new
"style templates", enhancing personalized content creation. We demonstrate the
ability to generate styles such as personal watercolor paintings, minimal flat
cartoons, 3D renderings, multi-panel images, and memes with text, thereby
broadening the scope of style-driven generation.