ChatPaper.aiChatPaper

Amostrador de SNR Amigável ao Estilo para Geração Orientada por Estilo

Style-Friendly SNR Sampler for Style-Driven Generation

November 22, 2024
Autores: Jooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon
cs.AI

Resumo

Os modelos de difusão em larga escala recentes geram imagens de alta qualidade, porém têm dificuldade em aprender novos estilos artísticos personalizados, o que limita a criação de modelos de estilo únicos. O ajuste fino com imagens de referência é a abordagem mais promissora, mas frequentemente utiliza de forma cega objetivos e distribuições de nível de ruído usadas para pré-treinamento, resultando em alinhamento de estilo subótimo. Propomos o amostrador Style-friendly SNR, que desloca agressivamente a distribuição de relação sinal-ruído (SNR) para níveis de ruído mais altos durante o ajuste fino para focar nos níveis de ruído onde características estilísticas emergem. Isso permite que os modelos capturem melhor estilos únicos e gerem imagens com maior alinhamento de estilo. Nosso método permite que os modelos de difusão aprendam e compartilhem novos "modelos de estilo", aprimorando a criação de conteúdo personalizado. Demonstramos a capacidade de gerar estilos como pinturas pessoais em aquarela, desenhos minimalistas, renderizações 3D, imagens de vários painéis e memes com texto, ampliando assim o escopo da geração orientada por estilo.
English
Recent large-scale diffusion models generate high-quality images but struggle to learn new, personalized artistic styles, which limits the creation of unique style templates. Fine-tuning with reference images is the most promising approach, but it often blindly utilizes objectives and noise level distributions used for pre-training, leading to suboptimal style alignment. We propose the Style-friendly SNR sampler, which aggressively shifts the signal-to-noise ratio (SNR) distribution toward higher noise levels during fine-tuning to focus on noise levels where stylistic features emerge. This enables models to better capture unique styles and generate images with higher style alignment. Our method allows diffusion models to learn and share new "style templates", enhancing personalized content creation. We demonstrate the ability to generate styles such as personal watercolor paintings, minimal flat cartoons, 3D renderings, multi-panel images, and memes with text, thereby broadening the scope of style-driven generation.

Summary

AI-Generated Summary

PDF353November 25, 2024