ChatPaper.aiChatPaper

Muestreador de SNR compatible con el estilo para Generación Dirigida por Estilo

Style-Friendly SNR Sampler for Style-Driven Generation

November 22, 2024
Autores: Jooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon
cs.AI

Resumen

Los modelos de difusión a gran escala recientes generan imágenes de alta calidad pero tienen dificultades para aprender nuevos estilos artísticos personalizados, lo que limita la creación de plantillas de estilo únicas. El ajuste fino con imágenes de referencia es el enfoque más prometedor, pero a menudo utiliza de manera ciega objetivos y distribuciones de niveles de ruido utilizados para el preentrenamiento, lo que conduce a un alineamiento de estilo subóptimo. Proponemos el muestreador de relación señal a ruido (SNR) amigable con el estilo, que desplaza agresivamente la distribución de SNR hacia niveles de ruido más altos durante el ajuste fino para centrarse en niveles de ruido donde emergen las características estilísticas. Esto permite a los modelos capturar mejor estilos únicos y generar imágenes con un mayor alineamiento de estilo. Nuestro método permite a los modelos de difusión aprender y compartir nuevas "plantillas de estilo", mejorando la creación de contenido personalizado. Demostramos la capacidad de generar estilos como pinturas acuarelas personales, dibujos animados minimalistas, renderizaciones en 3D, imágenes de varios paneles y memes con texto, ampliando así el alcance de la generación impulsada por el estilo.
English
Recent large-scale diffusion models generate high-quality images but struggle to learn new, personalized artistic styles, which limits the creation of unique style templates. Fine-tuning with reference images is the most promising approach, but it often blindly utilizes objectives and noise level distributions used for pre-training, leading to suboptimal style alignment. We propose the Style-friendly SNR sampler, which aggressively shifts the signal-to-noise ratio (SNR) distribution toward higher noise levels during fine-tuning to focus on noise levels where stylistic features emerge. This enables models to better capture unique styles and generate images with higher style alignment. Our method allows diffusion models to learn and share new "style templates", enhancing personalized content creation. We demonstrate the ability to generate styles such as personal watercolor paintings, minimal flat cartoons, 3D renderings, multi-panel images, and memes with text, thereby broadening the scope of style-driven generation.

Summary

AI-Generated Summary

PDF353November 25, 2024