생성 과정 개선을 위한 재시작 샘플링
Restart Sampling for Improving Generative Processes
June 26, 2023
저자: Yilun Xu, Mingyang Deng, Xiang Cheng, Yonglong Tian, Ziming Liu, Tommi Jaakkola
cs.AI
초록
미분 방정식을 해결하는 과정을 포함하는 생성 프로세스, 예를 들어 확산 모델은 종종 속도와 품질 간의 균형을 맞춰야 합니다. ODE 기반 샘플러는 빠르지만 성능이 정체되는 반면, SDE 기반 샘플러는 샘플링 시간이 증가하는 대신 더 높은 샘플 품질을 제공합니다. 우리는 이러한 차이를 샘플링 오류로 설명합니다: ODE 샘플러는 더 작은 이산화 오류를 포함하는 반면, SDE의 확률성은 누적된 오류를 줄입니다. 이러한 발견을 바탕으로, 우리는 이산화 오류와 축소를 더 잘 균형 잡기 위해 Restart라는 새로운 샘플링 알고리즘을 제안합니다. 이 샘플링 방법은 추가 전진 단계에서 상당한 노이즈를 추가하는 것과 후진 ODE를 엄격히 따르는 것을 번갈아가며 수행합니다. 실험적으로, Restart 샘플러는 이전의 SDE 및 ODE 샘플러를 속도와 정확성 모두에서 능가합니다. Restart는 이전 최고의 SDE 결과를 능가할 뿐만 아니라, CIFAR-10 / ImageNet 64x64에서 각각 10배 / 2배의 샘플링 속도 향상을 달성합니다. 또한, 비슷한 샘플링 시간 내에서 ODE 샘플러보다 훨씬 더 나은 샘플 품질을 얻습니다. 더 나아가, Restart는 LAION 512x512에서 사전 학습된 대규모 텍스트-이미지 Stable Diffusion 모델에서 이전 샘플러보다 텍스트-이미지 정렬/시각적 품질 대 다양성을 더 잘 균형 잡습니다. 코드는 https://github.com/Newbeeer/diffusion_restart_sampling에서 확인할 수 있습니다.
English
Generative processes that involve solving differential equations, such as
diffusion models, frequently necessitate balancing speed and quality. ODE-based
samplers are fast but plateau in performance while SDE-based samplers deliver
higher sample quality at the cost of increased sampling time. We attribute this
difference to sampling errors: ODE-samplers involve smaller discretization
errors while stochasticity in SDE contracts accumulated errors. Based on these
findings, we propose a novel sampling algorithm called Restart in order to
better balance discretization errors and contraction. The sampling method
alternates between adding substantial noise in additional forward steps and
strictly following a backward ODE. Empirically, Restart sampler surpasses
previous SDE and ODE samplers in both speed and accuracy. Restart not only
outperforms the previous best SDE results, but also accelerates the sampling
speed by 10-fold / 2-fold on CIFAR-10 / ImageNet 64 times 64. In addition,
it attains significantly better sample quality than ODE samplers within
comparable sampling times. Moreover, Restart better balances text-image
alignment/visual quality versus diversity than previous samplers in the
large-scale text-to-image Stable Diffusion model pre-trained on LAION 512
times 512. Code is available at
https://github.com/Newbeeer/diffusion_restart_sampling