ChatPaper.aiChatPaper

접선 정렬: 다양체 정렬 접선을 통한 더 나은 일관성 모델 훈련

Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

October 1, 2025
저자: Beomsu Kim, Byunghee Cha, Jong Chul Ye
cs.AI

초록

확산 및 흐름 매칭 모델이 최첨단 생성 성능을 달성함에 따라, 커뮤니티의 관심은 이제 샘플 품질을 희생하지 않으면서 추론 시간을 줄이는 데로 돌아섰다. 일관성 모델(Consistency Models, CMs)은 확산 또는 확률 흐름 상미분 방정식(Probability Flow Ordinary Differential Equation, PF-ODE) 궤적에서 일관성을 유지하도록 훈련되어, 한두 단계의 흐름 또는 확산 샘플링을 가능하게 한다. 그러나 CMs는 일반적으로 경쟁력 있는 샘플 품질을 얻기 위해 큰 배치 크기로 장기간 훈련을 필요로 한다. 본 논문에서는 수렴 근처에서의 CMs 훈련 동역학을 조사하고, CM 접선(CM 출력 업데이트 방향)이 데이터 매니폴드로 향하지 않고 매니폴드와 평행하게 이동하는 등 상당히 진동적임을 발견했다. 이러한 진동적 접선을 완화하기 위해, 우리는 매니폴드 정렬 접선을 제공하는 새로운 손실 함수인 매니폴드 특징 거리(Manifold Feature Distance, MFD)를 제안한다. 결과적으로, 우리의 방법인 Align Your Tangent(AYT)은 CM 훈련을 크게 가속화할 수 있으며, 학습된 지각적 이미지 패치 유사성 메트릭(Learned Perceptual Image Patch Similarity, LPIPS)을 능가할 수도 있다. 또한, 우리의 손실 함수는 샘플 품질을 저하시키지 않으면서 극도로 작은 배치 크기로 훈련을 가능하게 한다. 코드: https://github.com/1202kbs/AYT
English
With diffusion and flow matching models achieving state-of-the-art generating performance, the interest of the community now turned to reducing the inference time without sacrificing sample quality. Consistency Models (CMs), which are trained to be consistent on diffusion or probability flow ordinary differential equation (PF-ODE) trajectories, enable one or two-step flow or diffusion sampling. However, CMs typically require prolonged training with large batch sizes to obtain competitive sample quality. In this paper, we examine the training dynamics of CMs near convergence and discover that CM tangents -- CM output update directions -- are quite oscillatory, in the sense that they move parallel to the data manifold, not towards the manifold. To mitigate oscillatory tangents, we propose a new loss function, called the manifold feature distance (MFD), which provides manifold-aligned tangents that point toward the data manifold. Consequently, our method -- dubbed Align Your Tangent (AYT) -- can accelerate CM training by orders of magnitude and even out-perform the learned perceptual image patch similarity metric (LPIPS). Furthermore, we find that our loss enables training with extremely small batch sizes without compromising sample quality. Code: https://github.com/1202kbs/AYT
PDF22October 6, 2025