ChatPaper.aiChatPaper

Het elimineren van oversaturatie en artefacten van hoge begeleidingsschalen in Diffusiemodellen.

Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

October 3, 2024
Auteurs: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
cs.AI

Samenvatting

Classifier-vrije begeleiding (CVB) is cruciaal voor het verbeteren van zowel de generatiekwaliteit als de afstemming tussen de invoerconditie en de uiteindelijke uitvoer in diffusiemodellen. Hoewel over het algemeen een hoge begeleidingsschaal nodig is om deze aspecten te verbeteren, veroorzaakt dit ook oversaturatie en onrealistische artefacten. In dit artikel herzien we de CVB-update regel en introduceren we aanpassingen om dit probleem aan te pakken. We ontleden eerst de update-term in CVB in parallelle en orthogonale componenten ten opzichte van de voorspelling van het conditionele model en observeren dat de parallelle component voornamelijk oversaturatie veroorzaakt, terwijl de orthogonale component de beeldkwaliteit verbetert. Daarom stellen we voor om de parallelle component te verzwakken om hoogwaardige generaties te bereiken zonder oversaturatie. Daarnaast leggen we een verband tussen CVB en gradiëntopgang en introduceren we een nieuwe herschaling- en momentummethode voor de CVB-update regel op basis van dit inzicht. Onze benadering, genaamd adaptieve geprojecteerde begeleiding (APG), behoudt de kwaliteitsverhogende voordelen van CVB terwijl het gebruik van hogere begeleidingsschalen mogelijk is zonder oversaturatie. APG is eenvoudig te implementeren en introduceert praktisch geen extra rekenkundige overhead voor het bemonsteringsproces. Via uitgebreide experimenten tonen we aan dat APG compatibel is met verschillende conditionele diffusiemodellen en samplers, wat leidt tot verbeterde FID, recall en saturatiescores, terwijl de precisie vergelijkbaar is met CVB, waardoor onze methode een superieure plug-and-play alternatief is voor standaard classifier-vrije begeleiding.
English
Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models. While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts. In this paper, we revisit the CFG update rule and introduce modifications to address this issue. We first decompose the update term in CFG into parallel and orthogonal components with respect to the conditional model prediction and observe that the parallel component primarily causes oversaturation, while the orthogonal component enhances image quality. Accordingly, we propose down-weighting the parallel component to achieve high-quality generations without oversaturation. Additionally, we draw a connection between CFG and gradient ascent and introduce a new rescaling and momentum method for the CFG update rule based on this insight. Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation. APG is easy to implement and introduces practically no additional computational overhead to the sampling process. Through extensive experiments, we demonstrate that APG is compatible with various conditional diffusion models and samplers, leading to improved FID, recall, and saturation scores while maintaining precision comparable to CFG, making our method a superior plug-and-play alternative to standard classifier-free guidance.

Summary

AI-Generated Summary

PDF314November 16, 2024