スタイル駆動生成のためのスタイルに優しいSNRサンプラー
Style-Friendly SNR Sampler for Style-Driven Generation
November 22, 2024
著者: Jooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon
cs.AI
要旨
最近の大規模な拡散モデルは高品質な画像を生成する一方、新しい個人の芸術的スタイルを学習するのに苦労しており、独自のスタイルテンプレートの作成を制限しています。参照画像を使用したファインチューニングは最も有望なアプローチですが、しばしば事前トレーニングで使用された目的やノイズレベル分布を盲目的に利用するため、最適でないスタイルの整列が起こります。私たちは、スタイルに適したSNRサンプラーを提案し、ファインチューニング中に信号対雑音比(SNR)分布を積極的に高いノイズレベルにシフトさせることで、スタイル的特徴が現れるノイズレベルに焦点を当てます。これにより、モデルは独自のスタイルをよりよく捉え、スタイル整列の高い画像を生成することが可能となります。私たちの手法は、拡散モデルが新しい「スタイルテンプレート」を学習し共有することを可能にし、個人のコンテンツ作成を向上させます。私たちは、個人の水彩画、ミニマルなフラットな漫画、3Dレンダリング、複数パネル画像、およびテキスト付きのミームなど、様々なスタイルの生成能力を示し、スタイル駆動型生成の範囲を広げています。
English
Recent large-scale diffusion models generate high-quality images but struggle
to learn new, personalized artistic styles, which limits the creation of unique
style templates. Fine-tuning with reference images is the most promising
approach, but it often blindly utilizes objectives and noise level
distributions used for pre-training, leading to suboptimal style alignment. We
propose the Style-friendly SNR sampler, which aggressively shifts the
signal-to-noise ratio (SNR) distribution toward higher noise levels during
fine-tuning to focus on noise levels where stylistic features emerge. This
enables models to better capture unique styles and generate images with higher
style alignment. Our method allows diffusion models to learn and share new
"style templates", enhancing personalized content creation. We demonstrate the
ability to generate styles such as personal watercolor paintings, minimal flat
cartoons, 3D renderings, multi-panel images, and memes with text, thereby
broadening the scope of style-driven generation.Summary
AI-Generated Summary