통합 연속 생성 모델
Unified Continuous Generative Models
May 12, 2025
저자: Peng Sun, Yi Jiang, Tao Lin
cs.AI
초록
최근 확산 모델(diffusion) 및 플로우 매칭(flow-matching)과 같은 다단계 접근법(일반적으로 8-1000 샘플링 단계 필요)과 일관성 모델(consistency models)과 같은 소수 단계 방법(일반적으로 1-8 단계)을 포함한 연속 생성 모델(continuous generative models)의 발전은 인상적인 생성 성능을 보여주고 있습니다. 그러나 기존 연구에서는 이러한 접근법을 별개의 패러다임으로 취급하여 별도의 학습 및 샘플링 방법론을 사용하는 경우가 많았습니다. 본 연구에서는 이러한 모델들을 학습, 샘플링 및 분석하기 위한 통합 프레임워크를 소개합니다. 우리의 구현체인 통합 연속 생성 모델 학습기 및 샘플러(Unified Continuous Generative Models Trainer and Sampler, UCGM-{T,S})는 최첨단(state-of-the-art, SOTA) 성능을 달성했습니다. 예를 들어, ImageNet 256x256 데이터셋에서 675M 확산 트랜스포머를 사용하여 UCGM-T는 다단계 모델을 학습시켜 20단계에서 1.30 FID를 달성했으며, 소수 단계 모델은 단 2단계에서 1.42 FID를 기록했습니다. 또한, 사전 학습된 모델(이전에는 250단계에서 1.26 FID)에 UCGM-S를 적용하면 단 40단계에서 1.06 FID로 성능이 향상되었습니다. 코드는 https://github.com/LINs-lab/UCGM에서 확인할 수 있습니다.
English
Recent advances in continuous generative models, including multi-step
approaches like diffusion and flow-matching (typically requiring 8-1000
sampling steps) and few-step methods such as consistency models (typically 1-8
steps), have demonstrated impressive generative performance. However, existing
work often treats these approaches as distinct paradigms, resulting in separate
training and sampling methodologies. We introduce a unified framework for
training, sampling, and analyzing these models. Our implementation, the Unified
Continuous Generative Models Trainer and Sampler (UCGM-{T,S}), achieves
state-of-the-art (SOTA) performance. For example, on ImageNet 256x256 using a
675M diffusion transformer, UCGM-T trains a multi-step model achieving 1.30 FID
in 20 steps and a few-step model reaching 1.42 FID in just 2 steps.
Additionally, applying UCGM-S to a pre-trained model (previously 1.26 FID at
250 steps) improves performance to 1.06 FID in only 40 steps. Code is available
at: https://github.com/LINs-lab/UCGM.Summary
AI-Generated Summary