분해 가능한 흐름 매칭을 통한 점진적 생성 개선
Improving Progressive Generation with Decomposable Flow Matching
June 24, 2025
저자: Moayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin
cs.AI
초록
고차원 시각적 모달리티를 생성하는 것은 계산적으로 매우 부담스러운 작업이다. 일반적인 해결책은 출력물을 거친 스펙트럼에서 세밀한 스펙트럼으로 점진적으로 합성하는 점진적 생성 방식이다. 확산 모델은 노이즈 제거의 거친-세밀한 특성으로부터 이점을 얻지만, 명시적인 다단계 아키텍처는 드물게 채택된다. 이러한 아키텍처는 전체 접근 방식의 복잡성을 증가시키며, 맞춤형 확산 공식, 분해에 의존하는 단계 전환, 임시 샘플러 또는 모델 캐스케이드의 필요성을 도입한다. 우리의 기여인 분해 가능한 흐름 매칭(Decomposable Flow Matching, DFM)은 시각적 미디어의 점진적 생성을 위한 간단하면서도 효과적인 프레임워크이다. DFM은 사용자 정의 다중 스케일 표현(예: 라플라시안 피라미드)의 각 단계에서 독립적으로 흐름 매칭을 적용한다. 우리의 실험에서 보여준 바와 같이, 이 접근 방식은 이미지와 비디오 모두에서 시각적 품질을 향상시키며, 기존의 다단계 프레임워크에 비해 우수한 결과를 보인다. Imagenet-1k 512px에서 DFM은 기본 아키텍처 대비 FDD 점수에서 35.2%의 개선을 달성했으며, 동일한 학습 계산량 하에서 최고 성능의 베이스라인 대비 26.4%의 개선을 보였다. FLUX와 같은 대형 모델의 미세 조정에 적용할 경우, DFM은 학습 분포에 더 빠르게 수렴하는 속도를 보였다. 무엇보다도, 이러한 모든 이점은 단일 모델, 아키텍처적 단순성, 그리고 기존 학습 파이프라인의 최소한의 수정만으로 달성되었다.
English
Generating high-dimensional visual modalities is a computationally intensive
task. A common solution is progressive generation, where the outputs are
synthesized in a coarse-to-fine spectral autoregressive manner. While diffusion
models benefit from the coarse-to-fine nature of denoising, explicit
multi-stage architectures are rarely adopted. These architectures have
increased the complexity of the overall approach, introducing the need for a
custom diffusion formulation, decomposition-dependent stage transitions,
add-hoc samplers, or a model cascade. Our contribution, Decomposable Flow
Matching (DFM), is a simple and effective framework for the progressive
generation of visual media. DFM applies Flow Matching independently at each
level of a user-defined multi-scale representation (such as Laplacian pyramid).
As shown by our experiments, our approach improves visual quality for both
images and videos, featuring superior results compared to prior multistage
frameworks. On Imagenet-1k 512px, DFM achieves 35.2% improvements in FDD scores
over the base architecture and 26.4% over the best-performing baseline, under
the same training compute. When applied to finetuning of large models, such as
FLUX, DFM shows faster convergence speed to the training distribution.
Crucially, all these advantages are achieved with a single model, architectural
simplicity, and minimal modifications to existing training pipelines.