ChatPaper.aiChatPaper

Richt je Raaklijn: Betere Consistentiemodellen Trainen via Variëteit-Uitgelijnde Raaklijnen

Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

October 1, 2025
Auteurs: Beomsu Kim, Byunghee Cha, Jong Chul Ye
cs.AI

Samenvatting

Met diffusie- en flow matching-modellen die state-of-the-art prestaties behalen op het gebied van generatie, is de aandacht van de gemeenschap nu gericht op het verminderen van de inferentietijd zonder in te leveren op de kwaliteit van de samples. Consistentiemodellen (CMs), die worden getraind om consistent te zijn op diffusie- of waarschijnlijkheidsflow gewone differentiaalvergelijking (PF-ODE) trajecten, maken flow- of diffusie-sampling in één of twee stappen mogelijk. CMs vereisen echter doorgaans een langdurige training met grote batchgroottes om competitieve samplekwaliteit te behalen. In dit artikel onderzoeken we de trainingsdynamiek van CMs nabij convergentie en ontdekken we dat CM-tangenten -- de update-richtingen van de CM-uitvoer -- behoorlijk oscillerend zijn, in die zin dat ze parallel bewegen aan de datamanifold, en niet richting de manifold. Om oscillerende tangenten te verminderen, stellen we een nieuwe verliesfunctie voor, genaamd de manifold feature distance (MFD), die manifold-uitgelijnde tangenten biedt die naar de datamanifold wijzen. Als gevolg hiervan kan onze methode -- genaamd Align Your Tangent (AYT) -- de CM-training met ordes van grootte versnellen en zelfs de learned perceptual image patch similarity metric (LPIPS) overtreffen. Bovendien ontdekken we dat ons verlies het mogelijk maakt om te trainen met extreem kleine batchgroottes zonder in te leveren op de samplekwaliteit. Code: https://github.com/1202kbs/AYT
English
With diffusion and flow matching models achieving state-of-the-art generating performance, the interest of the community now turned to reducing the inference time without sacrificing sample quality. Consistency Models (CMs), which are trained to be consistent on diffusion or probability flow ordinary differential equation (PF-ODE) trajectories, enable one or two-step flow or diffusion sampling. However, CMs typically require prolonged training with large batch sizes to obtain competitive sample quality. In this paper, we examine the training dynamics of CMs near convergence and discover that CM tangents -- CM output update directions -- are quite oscillatory, in the sense that they move parallel to the data manifold, not towards the manifold. To mitigate oscillatory tangents, we propose a new loss function, called the manifold feature distance (MFD), which provides manifold-aligned tangents that point toward the data manifold. Consequently, our method -- dubbed Align Your Tangent (AYT) -- can accelerate CM training by orders of magnitude and even out-perform the learned perceptual image patch similarity metric (LPIPS). Furthermore, we find that our loss enables training with extremely small batch sizes without compromising sample quality. Code: https://github.com/1202kbs/AYT
PDF32October 6, 2025