ChatPaper.aiChatPaper

스타일 주도 생성을 위한 스타일 친화적 SNR 샘플러

Style-Friendly SNR Sampler for Style-Driven Generation

November 22, 2024
저자: Jooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon
cs.AI

초록

최근 대규모 확산 모델은 고품질 이미지를 생성하지만 새로운 개인화된 예술적 스타일을 학습하는 데 어려움을 겪어 독특한 스타일 템플릿을 만드는 것을 제한합니다. 참조 이미지를 사용한 파인튜닝은 가장 유망한 접근 방식이지만 종종 사전 훈련에 사용된 목적 및 잡음 수준 분포를 맹목적으로 활용하여 최적의 스타일 정렬을 방해합니다. 우리는 스타일 친화적 SNR 샘플러를 제안합니다. 이 방법은 파인튜닝 중에 신호 대 잡음 비율(SNR) 분포를 공격적으로 변화시켜 스타일적 특징이 나타나는 잡음 수준에 초점을 맞춥니다. 이를 통해 모델이 독특한 스타일을 더 잘 포착하고 더 높은 스타일 정렬을 갖는 이미지를 생성할 수 있습니다. 우리의 방법은 확산 모델이 새로운 "스타일 템플릿"을 학습하고 공유할 수 있도록 하여 개인화된 콘텐츠 생성을 향상시킵니다. 우리는 개인용 수채화, 미니멀한 평면 카툰, 3D 렌더링, 다중 패널 이미지, 텍스트가 포함된 밈 등과 같은 스타일을 생성하는 능력을 증명하여 스타일 중심 생성의 범위를 확대합니다.
English
Recent large-scale diffusion models generate high-quality images but struggle to learn new, personalized artistic styles, which limits the creation of unique style templates. Fine-tuning with reference images is the most promising approach, but it often blindly utilizes objectives and noise level distributions used for pre-training, leading to suboptimal style alignment. We propose the Style-friendly SNR sampler, which aggressively shifts the signal-to-noise ratio (SNR) distribution toward higher noise levels during fine-tuning to focus on noise levels where stylistic features emerge. This enables models to better capture unique styles and generate images with higher style alignment. Our method allows diffusion models to learn and share new "style templates", enhancing personalized content creation. We demonstrate the ability to generate styles such as personal watercolor paintings, minimal flat cartoons, 3D renderings, multi-panel images, and memes with text, thereby broadening the scope of style-driven generation.

Summary

AI-Generated Summary

PDF353November 25, 2024