ChatPaper.aiChatPaper

Eliminación de la Sobresaturación y Artefactos de Escalas de Guía Alta en Modelos de Difusión

Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models

October 3, 2024
Autores: Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
cs.AI

Resumen

La orientación sin clasificador (CFG, por sus siglas en inglés) es crucial para mejorar tanto la calidad de generación como la alineación entre la condición de entrada y la salida final en modelos de difusión. Si bien generalmente se requiere una escala de orientación alta para mejorar estos aspectos, también provoca sobresaturación y artefactos poco realistas. En este artículo, revisamos la regla de actualización de CFG e introducimos modificaciones para abordar este problema. Primero descomponemos el término de actualización en CFG en componentes paralelos y ortogonales con respecto a la predicción del modelo condicional y observamos que el componente paralelo causa principalmente sobresaturación, mientras que el componente ortogonal mejora la calidad de la imagen. En consecuencia, proponemos reducir el peso del componente paralelo para lograr generaciones de alta calidad sin sobresaturación. Además, establecemos una conexión entre CFG y el ascenso de gradiente e introducimos un nuevo método de reescalado y momento para la regla de actualización de CFG basado en esta percepción. Nuestro enfoque, denominado orientación proyectada adaptativa (APG), conserva las ventajas de mejora de calidad de CFG al permitir el uso de escalas de orientación más altas sin sobresaturación. APG es fácil de implementar e introduce prácticamente ningún costo computacional adicional al proceso de muestreo. A través de experimentos extensos, demostramos que APG es compatible con varios modelos de difusión condicional y muestreadores, lo que resulta en una mejora en los puntajes de FID, recall y saturación, manteniendo una precisión comparable a CFG, convirtiendo nuestro método en una alternativa superior y lista para usar en lugar de la orientación estándar sin clasificador.
English
Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models. While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts. In this paper, we revisit the CFG update rule and introduce modifications to address this issue. We first decompose the update term in CFG into parallel and orthogonal components with respect to the conditional model prediction and observe that the parallel component primarily causes oversaturation, while the orthogonal component enhances image quality. Accordingly, we propose down-weighting the parallel component to achieve high-quality generations without oversaturation. Additionally, we draw a connection between CFG and gradient ascent and introduce a new rescaling and momentum method for the CFG update rule based on this insight. Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation. APG is easy to implement and introduces practically no additional computational overhead to the sampling process. Through extensive experiments, we demonstrate that APG is compatible with various conditional diffusion models and samplers, leading to improved FID, recall, and saturation scores while maintaining precision comparable to CFG, making our method a superior plug-and-play alternative to standard classifier-free guidance.

Summary

AI-Generated Summary

PDF314November 16, 2024