ChatPaper.aiChatPaper

Eliminazione dell'oversaturazione e degli artefatti delle scale di guida elevate nei modelli di diffusione

Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

October 3, 2024
Autori: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
cs.AI

Abstract

La guida senza classificatore (CFG) è cruciale per migliorare sia la qualità della generazione che l'allineamento tra la condizione di input e l'output finale nei modelli di diffusione. Sebbene una scala di guida elevata sia generalmente necessaria per potenziare questi aspetti, essa provoca anche sovrasaturazione e artefatti irrealistici. In questo articolo, esaminiamo nuovamente la regola di aggiornamento CFG e introduciamo modifiche per affrontare questo problema. Prima decomponiamo il termine di aggiornamento in CFG in componenti parallele e ortogonali rispetto alla previsione del modello condizionale e osserviamo che la componente parallela provoca principalmente sovrasaturazione, mentre la componente ortogonale migliora la qualità dell'immagine. Di conseguenza, proponiamo di ridurre il peso della componente parallela per ottenere generazioni di alta qualità senza sovrasaturazione. Inoltre, stabiliamo un collegamento tra CFG e l'ascesa del gradiente e introduciamo un nuovo metodo di ridimensionamento e momentum per la regola di aggiornamento CFG basato su questa intuizione. Il nostro approccio, chiamato guida proiettata adattiva (APG), conserva i vantaggi di potenziamento della qualità di CFG consentendo l'uso di scale di guida più elevate senza sovrasaturazione. APG è facile da implementare e introduce praticamente nessun overhead computazionale aggiuntivo al processo di campionamento. Attraverso estesi esperimenti, dimostriamo che APG è compatibile con vari modelli di diffusione condizionale e campionatori, portando a un miglioramento dei punteggi FID, di recall e di saturazione mantenendo una precisione paragonabile a CFG, rendendo il nostro metodo un'alternativa superiore plug-and-play alla guida senza classificatore standard.
English
Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models. While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts. In this paper, we revisit the CFG update rule and introduce modifications to address this issue. We first decompose the update term in CFG into parallel and orthogonal components with respect to the conditional model prediction and observe that the parallel component primarily causes oversaturation, while the orthogonal component enhances image quality. Accordingly, we propose down-weighting the parallel component to achieve high-quality generations without oversaturation. Additionally, we draw a connection between CFG and gradient ascent and introduce a new rescaling and momentum method for the CFG update rule based on this insight. Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation. APG is easy to implement and introduces practically no additional computational overhead to the sampling process. Through extensive experiments, we demonstrate that APG is compatible with various conditional diffusion models and samplers, leading to improved FID, recall, and saturation scores while maintaining precision comparable to CFG, making our method a superior plug-and-play alternative to standard classifier-free guidance.
PDF346November 16, 2024