ChatPaper.aiChatPaper

종단 속도 일치

Terminal Velocity Matching

November 24, 2025
저자: Linqi Zhou, Mathias Parger, Ayaan Haque, Jiaming Song
cs.AI

초록

터미널 속도 매칭(TVM)은 고품질의 1-단계 및 소수-단계 생성 모델링을 가능하게 하는 플로우 매칭의 일반화 방법입니다. TVM은 임의의 두 확산 타임스텝 간 전이를 모델링하며, 초기 시간이 아닌 종료 시간에서의 동작을 정규화합니다. 모델이 립시츠 연속성을 가질 때 TVM이 데이터와 모델 분포 간 2-바서슈타인 거리의 상한을 제공함을 증명합니다. 그러나 디퓨전 트랜스포머는 이 속성을 만족하지 않으므로, 안정적인 단일-단계 학습을 달성하는 최소 구조적 변경을 도입합니다. TVM의 실용적 효율성을 위해 트랜스포머 구조에 잘 확장되는 야코비안-벡터 곱의 역전파를 지원하는 융합 어텐션 커널을 개발했습니다. ImageNet-256x256에서 TVM은 단일 함수 평가(NFE)로 3.29 FID, 4 NFE로 1.99 FID를 달성합니다. ImageNet-512x512에서도 동일하게 1-NFE 기준 4.32 FID, 4-NFE 기준 2.94 FID를 기록하며, 처음부터 학습한 1/소수-단계 모델 중 최첨단 성능을 나타냅니다.
English
We propose Terminal Velocity Matching (TVM), a generalization of flow matching that enables high-fidelity one- and few-step generative modeling. TVM models the transition between any two diffusion timesteps and regularizes its behavior at its terminal time rather than at the initial time. We prove that TVM provides an upper bound on the 2-Wasserstein distance between data and model distributions when the model is Lipschitz continuous. However, since Diffusion Transformers lack this property, we introduce minimal architectural changes that achieve stable, single-stage training. To make TVM efficient in practice, we develop a fused attention kernel that supports backward passes on Jacobian-Vector Products, which scale well with transformer architectures. On ImageNet-256x256, TVM achieves 3.29 FID with a single function evaluation (NFE) and 1.99 FID with 4 NFEs. It similarly achieves 4.32 1-NFE FID and 2.94 4-NFE FID on ImageNet-512x512, representing state-of-the-art performance for one/few-step models from scratch.
PDF112December 1, 2025