Het elimineren van oversaturatie en artefacten van hoge begeleidingsschalen in Diffusiemodellen.
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
October 3, 2024
Auteurs: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
cs.AI
Samenvatting
Classifier-vrije begeleiding (CVB) is cruciaal voor het verbeteren van zowel de generatiekwaliteit als de afstemming tussen de invoerconditie en de uiteindelijke uitvoer in diffusiemodellen. Hoewel over het algemeen een hoge begeleidingsschaal nodig is om deze aspecten te verbeteren, veroorzaakt dit ook oversaturatie en onrealistische artefacten. In dit artikel herzien we de CVB-update regel en introduceren we aanpassingen om dit probleem aan te pakken. We ontleden eerst de update-term in CVB in parallelle en orthogonale componenten ten opzichte van de voorspelling van het conditionele model en observeren dat de parallelle component voornamelijk oversaturatie veroorzaakt, terwijl de orthogonale component de beeldkwaliteit verbetert. Daarom stellen we voor om de parallelle component te verzwakken om hoogwaardige generaties te bereiken zonder oversaturatie. Daarnaast leggen we een verband tussen CVB en gradiëntopgang en introduceren we een nieuwe herschaling- en momentummethode voor de CVB-update regel op basis van dit inzicht. Onze benadering, genaamd adaptieve geprojecteerde begeleiding (APG), behoudt de kwaliteitsverhogende voordelen van CVB terwijl het gebruik van hogere begeleidingsschalen mogelijk is zonder oversaturatie. APG is eenvoudig te implementeren en introduceert praktisch geen extra rekenkundige overhead voor het bemonsteringsproces. Via uitgebreide experimenten tonen we aan dat APG compatibel is met verschillende conditionele diffusiemodellen en samplers, wat leidt tot verbeterde FID, recall en saturatiescores, terwijl de precisie vergelijkbaar is met CVB, waardoor onze methode een superieure plug-and-play alternatief is voor standaard classifier-vrije begeleiding.
English
Classifier-free guidance (CFG) is crucial for improving both generation
quality and alignment between the input condition and final output in diffusion
models. While a high guidance scale is generally required to enhance these
aspects, it also causes oversaturation and unrealistic artifacts. In this
paper, we revisit the CFG update rule and introduce modifications to address
this issue. We first decompose the update term in CFG into parallel and
orthogonal components with respect to the conditional model prediction and
observe that the parallel component primarily causes oversaturation, while the
orthogonal component enhances image quality. Accordingly, we propose
down-weighting the parallel component to achieve high-quality generations
without oversaturation. Additionally, we draw a connection between CFG and
gradient ascent and introduce a new rescaling and momentum method for the CFG
update rule based on this insight. Our approach, termed adaptive projected
guidance (APG), retains the quality-boosting advantages of CFG while enabling
the use of higher guidance scales without oversaturation. APG is easy to
implement and introduces practically no additional computational overhead to
the sampling process. Through extensive experiments, we demonstrate that APG is
compatible with various conditional diffusion models and samplers, leading to
improved FID, recall, and saturation scores while maintaining precision
comparable to CFG, making our method a superior plug-and-play alternative to
standard classifier-free guidance.Summary
AI-Generated Summary