Образец SNR-дискриминатора для генерации, управляемой стилем.
Style-Friendly SNR Sampler for Style-Driven Generation
November 22, 2024
Авторы: Jooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon
cs.AI
Аннотация
Недавние модели масштабного распространения генерируют изображения высокого качества, но испытывают трудности в изучении новых, персонализированных художественных стилей, что ограничивает создание уникальных стилевых шаблонов. Наилучшим подходом является донастройка с использованием опорных изображений, однако часто она слепо использует цели и распределения уровня шума, использованные для предварительного обучения, что приводит к неоптимальному выравниванию стилей. Мы предлагаем сэмплер SNR, дружественный к стилю, который агрессивно сдвигает распределение сигнал-шум (SNR) в сторону более высоких уровней шума во время донастройки для фокусировки на уровнях шума, где проявляются стилевые особенности. Это позволяет моделям лучше улавливать уникальные стили и генерировать изображения с более высоким стилевым выравниванием. Наш метод позволяет моделям распространения изучать и обмениваться новыми "стилевыми шаблонами", улучшая создание персонализированного контента. Мы продемонстрировали возможность генерировать стили, такие как персональные акварельные картины, минималистические плоские мультфильмы, 3D-рендеринги, многофункциональные изображения и мемы с текстом, тем самым расширяя область стилевой генерации.
English
Recent large-scale diffusion models generate high-quality images but struggle
to learn new, personalized artistic styles, which limits the creation of unique
style templates. Fine-tuning with reference images is the most promising
approach, but it often blindly utilizes objectives and noise level
distributions used for pre-training, leading to suboptimal style alignment. We
propose the Style-friendly SNR sampler, which aggressively shifts the
signal-to-noise ratio (SNR) distribution toward higher noise levels during
fine-tuning to focus on noise levels where stylistic features emerge. This
enables models to better capture unique styles and generate images with higher
style alignment. Our method allows diffusion models to learn and share new
"style templates", enhancing personalized content creation. We demonstrate the
ability to generate styles such as personal watercolor paintings, minimal flat
cartoons, 3D renderings, multi-panel images, and memes with text, thereby
broadening the scope of style-driven generation.Summary
AI-Generated Summary