ChatPaper.aiChatPaper

Richten Sie Ihre Tangente aus: Bessere Konsistenzmodelle durch mannigfaltigkeitsausgerichtete Tangenten trainieren

Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

October 1, 2025
papers.authors: Beomsu Kim, Byunghee Cha, Jong Chul Ye
cs.AI

papers.abstract

Mit Diffusions- und Flussanpassungsmodellen, die Spitzenleistungen in der Generierung erzielen, hat sich das Interesse der Gemeinschaft nun darauf verlagert, die Inferenzzeit zu reduzieren, ohne die Probenqualität zu beeinträchtigen. Konsistenzmodelle (Consistency Models, CMs), die darauf trainiert sind, konsistent auf Diffusions- oder Wahrscheinlichkeitsfluss-gewöhnlichen Differentialgleichungspfaden (PF-ODE) zu sein, ermöglichen eine ein- oder zweistufige Fluss- oder Diffusionsabtastung. Allerdings erfordern CMs typischerweise ein langwieriges Training mit großen Batch-Größen, um eine konkurrenzfähige Probenqualität zu erreichen. In diesem Artikel untersuchen wir die Trainingsdynamik von CMs nahe der Konvergenz und entdecken, dass die Tangenten der CMs – die Aktualisierungsrichtungen der CM-Ausgaben – recht oszillierend sind, in dem Sinne, dass sie parallel zur Datenmannigfaltigkeit verlaufen und nicht auf diese zusteuern. Um oszillierende Tangenten zu mildern, schlagen wir eine neue Verlustfunktion vor, die als Mannigfaltigkeits-Feature-Distanz (Manifold Feature Distance, MFD) bezeichnet wird und mannigfaltigkeitsausgerichtete Tangenten liefert, die auf die Datenmannigfaltigkeit zeigen. Folglich kann unsere Methode – genannt Align Your Tangent (AYT) – das CM-Training um Größenordnungen beschleunigen und sogar die gelernte wahrgenommene Bildpatch-Ähnlichkeitsmetrik (Learned Perceptual Image Patch Similarity, LPIPS) übertreffen. Darüber hinaus stellen wir fest, dass unser Verlust das Training mit extrem kleinen Batch-Größen ermöglicht, ohne die Probenqualität zu beeinträchtigen. Code: https://github.com/1202kbs/AYT
English
With diffusion and flow matching models achieving state-of-the-art generating performance, the interest of the community now turned to reducing the inference time without sacrificing sample quality. Consistency Models (CMs), which are trained to be consistent on diffusion or probability flow ordinary differential equation (PF-ODE) trajectories, enable one or two-step flow or diffusion sampling. However, CMs typically require prolonged training with large batch sizes to obtain competitive sample quality. In this paper, we examine the training dynamics of CMs near convergence and discover that CM tangents -- CM output update directions -- are quite oscillatory, in the sense that they move parallel to the data manifold, not towards the manifold. To mitigate oscillatory tangents, we propose a new loss function, called the manifold feature distance (MFD), which provides manifold-aligned tangents that point toward the data manifold. Consequently, our method -- dubbed Align Your Tangent (AYT) -- can accelerate CM training by orders of magnitude and even out-perform the learned perceptual image patch similarity metric (LPIPS). Furthermore, we find that our loss enables training with extremely small batch sizes without compromising sample quality. Code: https://github.com/1202kbs/AYT
PDF22October 6, 2025