Addestramento Post-Training nello Spazio dei Pixel dei Modelli di Diffusione Latente

Abstract

I modelli di diffusione latente (LDM) hanno compiuto significativi progressi nel campo della generazione di immagini negli ultimi anni. Uno dei principali vantaggi dei LDM è la loro capacità di operare in uno spazio latente compresso, consentendo una formazione e un dispiegamento più efficienti. Tuttavia, nonostante questi vantaggi, rimangono ancora delle sfide con i LDM. Ad esempio, è stato osservato che i LDM spesso generano dettagli ad alta frequenza e composizioni complesse in modo imperfetto. Ipotizziamo che una ragione di questi difetti sia dovuta al fatto che tutto il pre- e post-training dei LDM avvengono nello spazio latente, che è tipicamente 8 volte 8 a risoluzione spaziale inferiore rispetto alle immagini in output. Per affrontare questo problema, proponiamo di aggiungere una supervisione nello spazio dei pixel nel processo di post-training per preservare meglio i dettagli ad alta frequenza. Sperimentalmente, mostriamo che l'aggiunta di un obiettivo nello spazio dei pixel migliora significativamente sia la qualità del fine-tuning supervisionato che il post-training basato sulle preferenze di gran lunga su modelli di diffusione DiT e U-Net all'avanguardia, sia in termini di qualità visiva che di metriche di difetti visivi, mantenendo allo stesso tempo la stessa qualità di allineamento del testo.

English

Latent diffusion models (LDMs) have made significant advancements in the field of image generation in recent years. One major advantage of LDMs is their ability to operate in a compressed latent space, allowing for more efficient training and deployment. However, despite these advantages, challenges with LDMs still remain. For example, it has been observed that LDMs often generate high-frequency details and complex compositions imperfectly. We hypothesize that one reason for these flaws is due to the fact that all pre- and post-training of LDMs are done in latent space, which is typically 8 times 8 lower spatial-resolution than the output images. To address this issue, we propose adding pixel-space supervision in the post-training process to better preserve high-frequency details. Experimentally, we show that adding a pixel-space objective significantly improves both supervised quality fine-tuning and preference-based post-training by a large margin on a state-of-the-art DiT transformer and U-Net diffusion models in both visual quality and visual flaw metrics, while maintaining the same text alignment quality.

Addestramento Post-Training nello Spazio dei Pixel dei Modelli di Diffusione Latente

Pixel-Space Post-Training of Latent Diffusion Models

Abstract

Summary

Support

Support