ChatPaper.aiChatPaper

Eliminação de Sobre-saturação e Artefatos de Escalas de Alta Orientação em Modelos de Difusão

Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

October 3, 2024
Autores: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
cs.AI

Resumo

A orientação sem classificador (CFG) é crucial para melhorar tanto a qualidade da geração quanto o alinhamento entre a condição de entrada e a saída final em modelos de difusão. Embora uma escala de orientação alta seja geralmente necessária para aprimorar esses aspectos, ela também causa super saturação e artefatos irreais. Neste artigo, revisitamos a regra de atualização do CFG e introduzimos modificações para abordar esse problema. Primeiramente, decomponhamos o termo de atualização no CFG em componentes paralelos e ortogonais em relação à previsão do modelo condicional e observamos que o componente paralelo causa principalmente super saturação, enquanto o componente ortogonal melhora a qualidade da imagem. Consequentemente, propomos reduzir o peso do componente paralelo para alcançar gerações de alta qualidade sem super saturação. Além disso, estabelecemos uma conexão entre o CFG e a ascensão do gradiente e introduzimos um novo método de redimensionamento e momento para a regra de atualização do CFG com base nessa percepção. Nossa abordagem, denominada orientação projetada adaptativa (APG), mantém as vantagens de aumento de qualidade do CFG enquanto permite o uso de escalas de orientação mais altas sem super saturação. O APG é fácil de implementar e introduz praticamente nenhum custo computacional adicional ao processo de amostragem. Através de experimentos extensivos, demonstramos que o APG é compatível com vários modelos de difusão condicional e amostradores, resultando em melhorias nos escores de FID, recall e saturação, mantendo a precisão comparável ao CFG, tornando nosso método uma alternativa superior e pronta para uso à orientação sem classificador padrão.
English
Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models. While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts. In this paper, we revisit the CFG update rule and introduce modifications to address this issue. We first decompose the update term in CFG into parallel and orthogonal components with respect to the conditional model prediction and observe that the parallel component primarily causes oversaturation, while the orthogonal component enhances image quality. Accordingly, we propose down-weighting the parallel component to achieve high-quality generations without oversaturation. Additionally, we draw a connection between CFG and gradient ascent and introduce a new rescaling and momentum method for the CFG update rule based on this insight. Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation. APG is easy to implement and introduces practically no additional computational overhead to the sampling process. Through extensive experiments, we demonstrate that APG is compatible with various conditional diffusion models and samplers, leading to improved FID, recall, and saturation scores while maintaining precision comparable to CFG, making our method a superior plug-and-play alternative to standard classifier-free guidance.

Summary

AI-Generated Summary

PDF314November 16, 2024