ChatPaper.aiChatPaper

잠재적 적대적 확산 증류를 통한 고속 고해상도 이미지 합성

Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

March 18, 2024
저자: Axel Sauer, Frederic Boesel, Tim Dockhorn, Andreas Blattmann, Patrick Esser, Robin Rombach
cs.AI

초록

확산 모델(Diffusion models)은 이미지 및 비디오 합성 분야의 주요 발전 동력이지만, 느린 추론 속도가 문제로 지적되어 왔습니다. 최근 도입된 적대적 확산 증류(Adversarial Diffusion Distillation, ADD)와 같은 증류 방법은 다단계 추론에서 단일 단계 추론으로 모델을 전환하는 것을 목표로 하지만, 고정된 사전 학습된 DINOv2 판별자에 의존하기 때문에 비용이 많이 들고 최적화가 어려운 단점이 있습니다. 우리는 이러한 ADD의 한계를 극복한 새로운 증류 접근법인 잠재적 적대적 확산 증류(Latent Adversarial Diffusion Distillation, LADD)를 소개합니다. 픽셀 기반의 ADD와 달리, LADD는 사전 학습된 잠재 확산 모델의 생성적 특징을 활용합니다. 이 접근법은 훈련을 단순화하고 성능을 향상시켜 고해상도 다중 종횡비 이미지 합성을 가능하게 합니다. 우리는 LADD를 Stable Diffusion 3 (8B)에 적용하여 SD3-Turbo를 개발했으며, 이는 최첨단 텍스트-이미지 생성기의 성능을 단 4번의 비지도 샘플링 단계만으로도 달성하는 빠른 모델입니다. 또한, 우리는 LADD의 스케일링 동작을 체계적으로 조사하고 이미지 편집 및 인페인팅과 같은 다양한 응용 분야에서의 효과를 입증합니다.
English
Diffusion models are the main driver of progress in image and video synthesis, but suffer from slow inference speed. Distillation methods, like the recently introduced adversarial diffusion distillation (ADD) aim to shift the model from many-shot to single-step inference, albeit at the cost of expensive and difficult optimization due to its reliance on a fixed pretrained DINOv2 discriminator. We introduce Latent Adversarial Diffusion Distillation (LADD), a novel distillation approach overcoming the limitations of ADD. In contrast to pixel-based ADD, LADD utilizes generative features from pretrained latent diffusion models. This approach simplifies training and enhances performance, enabling high-resolution multi-aspect ratio image synthesis. We apply LADD to Stable Diffusion 3 (8B) to obtain SD3-Turbo, a fast model that matches the performance of state-of-the-art text-to-image generators using only four unguided sampling steps. Moreover, we systematically investigate its scaling behavior and demonstrate LADD's effectiveness in various applications such as image editing and inpainting.

Summary

AI-Generated Summary

PDF682December 15, 2024