ChatPaper.aiChatPaper

Alignez votre tangente : Entraîner des modèles de cohérence améliorés via des tangentes alignées sur la variété

Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

October 1, 2025
papers.authors: Beomsu Kim, Byunghee Cha, Jong Chul Ye
cs.AI

papers.abstract

Avec les modèles de diffusion et de correspondance de flux atteignant des performances de génération de pointe, l'intérêt de la communauté s'est désormais tourné vers la réduction du temps d'inférence sans sacrifier la qualité des échantillons. Les modèles de cohérence (Consistency Models, CMs), qui sont entraînés pour être cohérents sur les trajectoires de diffusion ou d'équations différentielles ordinaires de flux de probabilité (PF-ODE), permettent un échantillonnage de flux ou de diffusion en une ou deux étapes. Cependant, les CMs nécessitent généralement un entraînement prolongé avec de grandes tailles de lots pour obtenir une qualité d'échantillon compétitive. Dans cet article, nous examinons la dynamique d'entraînement des CMs près de la convergence et découvrons que les tangentes des CMs — les directions de mise à jour des sorties des CMs — sont assez oscillatoires, dans le sens où elles se déplacent parallèlement à la variété des données, et non vers celle-ci. Pour atténuer les tangentes oscillatoires, nous proposons une nouvelle fonction de perte, appelée distance des caractéristiques de la variété (Manifold Feature Distance, MFD), qui fournit des tangentes alignées sur la variété et pointant vers la variété des données. Par conséquent, notre méthode — baptisée Align Your Tangent (AYT) — peut accélérer l'entraînement des CMs de plusieurs ordres de grandeur et même surpasser la métrique de similarité perceptuelle des patchs d'images apprise (Learned Perceptual Image Patch Similarity, LPIPS). De plus, nous constatons que notre fonction de perte permet un entraînement avec des tailles de lots extrêmement petites sans compromettre la qualité des échantillons. Code : https://github.com/1202kbs/AYT
English
With diffusion and flow matching models achieving state-of-the-art generating performance, the interest of the community now turned to reducing the inference time without sacrificing sample quality. Consistency Models (CMs), which are trained to be consistent on diffusion or probability flow ordinary differential equation (PF-ODE) trajectories, enable one or two-step flow or diffusion sampling. However, CMs typically require prolonged training with large batch sizes to obtain competitive sample quality. In this paper, we examine the training dynamics of CMs near convergence and discover that CM tangents -- CM output update directions -- are quite oscillatory, in the sense that they move parallel to the data manifold, not towards the manifold. To mitigate oscillatory tangents, we propose a new loss function, called the manifold feature distance (MFD), which provides manifold-aligned tangents that point toward the data manifold. Consequently, our method -- dubbed Align Your Tangent (AYT) -- can accelerate CM training by orders of magnitude and even out-perform the learned perceptual image patch similarity metric (LPIPS). Furthermore, we find that our loss enables training with extremely small batch sizes without compromising sample quality. Code: https://github.com/1202kbs/AYT
PDF22October 6, 2025