Addestramento Post-Training nello Spazio dei Pixel dei Modelli di Diffusione Latente
Pixel-Space Post-Training of Latent Diffusion Models
September 26, 2024
Autori: Christina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu, Sam Tsai, Peter Vajda, Zijian He, Jialiang Wang
cs.AI
Abstract
I modelli di diffusione latente (LDM) hanno compiuto significativi progressi nel campo della generazione di immagini negli ultimi anni. Uno dei principali vantaggi dei LDM è la loro capacità di operare in uno spazio latente compresso, consentendo una formazione e un dispiegamento più efficienti. Tuttavia, nonostante questi vantaggi, rimangono ancora delle sfide con i LDM. Ad esempio, è stato osservato che i LDM spesso generano dettagli ad alta frequenza e composizioni complesse in modo imperfetto. Ipotizziamo che una ragione di questi difetti sia dovuta al fatto che tutto il pre- e post-training dei LDM avvengono nello spazio latente, che è tipicamente 8 volte 8 a risoluzione spaziale inferiore rispetto alle immagini in output. Per affrontare questo problema, proponiamo di aggiungere una supervisione nello spazio dei pixel nel processo di post-training per preservare meglio i dettagli ad alta frequenza. Sperimentalmente, mostriamo che l'aggiunta di un obiettivo nello spazio dei pixel migliora significativamente sia la qualità del fine-tuning supervisionato che il post-training basato sulle preferenze di gran lunga su modelli di diffusione DiT e U-Net all'avanguardia, sia in termini di qualità visiva che di metriche di difetti visivi, mantenendo allo stesso tempo la stessa qualità di allineamento del testo.
English
Latent diffusion models (LDMs) have made significant advancements in the
field of image generation in recent years. One major advantage of LDMs is their
ability to operate in a compressed latent space, allowing for more efficient
training and deployment. However, despite these advantages, challenges with
LDMs still remain. For example, it has been observed that LDMs often generate
high-frequency details and complex compositions imperfectly. We hypothesize
that one reason for these flaws is due to the fact that all pre- and
post-training of LDMs are done in latent space, which is typically 8 times 8
lower spatial-resolution than the output images. To address this issue, we
propose adding pixel-space supervision in the post-training process to better
preserve high-frequency details. Experimentally, we show that adding a
pixel-space objective significantly improves both supervised quality
fine-tuning and preference-based post-training by a large margin on a
state-of-the-art DiT transformer and U-Net diffusion models in both visual
quality and visual flaw metrics, while maintaining the same text alignment
quality.Summary
AI-Generated Summary