ChatPaper.aiChatPaper

잠재 확산 모델의 픽셀 공간 사후 훈련

Pixel-Space Post-Training of Latent Diffusion Models

September 26, 2024
저자: Christina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu, Sam Tsai, Peter Vajda, Zijian He, Jialiang Wang
cs.AI

초록

잠재 확산 모델(Latent diffusion models, LDMs)은 최근 이미지 생성 분야에서 중요한 발전을 이루었습니다. LDMs의 주요 장점 중 하나는 압축된 잠재 공간에서 작동할 수 있는 능력으로, 더 효율적인 훈련과 배포가 가능합니다. 그러나 이러한 장점에도 불구하고, LDMs와 관련된 여러 어려움이 여전히 존재합니다. 예를 들어, LDMs가 종종 고주파 세부 사항과 복잡한 구성을 불완전하게 생성하는 것으로 관찰되었습니다. 이러한 결함의 하나의 이유로, 모든 LDMs의 사전 및 사후 훈련이 일반적으로 출력 이미지보다 공간 해상도가 8배 낮은 잠재 공간에서 이루어진다는 점이 있을 것으로 추측됩니다. 이 문제를 해결하기 위해, 우리는 고주파 세부 사항을 더 잘 보존하기 위해 사후 훈련 과정에 픽셀 공간 지도를 추가하는 것을 제안합니다. 실험적으로, 우리는 최첨단 DiT 변환기와 U-Net 확산 모델에서 시각적 품질 및 시각적 결함 지표 양측에서 지도 품질 세밀 조정 및 선호 기반 사후 훈련을 크게 향상시키는 것을 보여줍니다. 이때 텍스트 정렬 품질은 유지됩니다.
English
Latent diffusion models (LDMs) have made significant advancements in the field of image generation in recent years. One major advantage of LDMs is their ability to operate in a compressed latent space, allowing for more efficient training and deployment. However, despite these advantages, challenges with LDMs still remain. For example, it has been observed that LDMs often generate high-frequency details and complex compositions imperfectly. We hypothesize that one reason for these flaws is due to the fact that all pre- and post-training of LDMs are done in latent space, which is typically 8 times 8 lower spatial-resolution than the output images. To address this issue, we propose adding pixel-space supervision in the post-training process to better preserve high-frequency details. Experimentally, we show that adding a pixel-space objective significantly improves both supervised quality fine-tuning and preference-based post-training by a large margin on a state-of-the-art DiT transformer and U-Net diffusion models in both visual quality and visual flaw metrics, while maintaining the same text alignment quality.

Summary

AI-Generated Summary

PDF222November 16, 2024