ChatPaper.aiChatPaper

Allinea la tua Tangente: Addestrare Modelli di Consistenza Migliori tramite Tangenti Allineate alla Varietà

Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

October 1, 2025
Autori: Beomsu Kim, Byunghee Cha, Jong Chul Ye
cs.AI

Abstract

Con i modelli di diffusione e di flusso che raggiungono prestazioni di generazione all'avanguardia, l'interesse della comunità si è ora rivolto alla riduzione del tempo di inferenza senza compromettere la qualità dei campioni. I Modelli di Consistenza (CMs), che sono addestrati per essere consistenti sulle traiettorie delle equazioni differenziali ordinarie del flusso di probabilità (PF-ODE), consentono un campionamento del flusso o della diffusione in uno o due passi. Tuttavia, i CMs richiedono tipicamente un addestramento prolungato con dimensioni di batch elevate per ottenere una qualità competitiva dei campioni. In questo articolo, esaminiamo le dinamiche di addestramento dei CMs vicino alla convergenza e scopriamo che le tangenti dei CM -- le direzioni di aggiornamento dell'output dei CM -- sono piuttosto oscillatorie, nel senso che si muovono parallelamente alla varietà dei dati, non verso la varietà. Per mitigare le tangenti oscillatorie, proponiamo una nuova funzione di perdita, chiamata distanza delle caratteristiche della varietà (MFD), che fornisce tangenti allineate alla varietà che puntano verso la varietà dei dati. Di conseguenza, il nostro metodo -- denominato Allinea la Tua Tangente (AYT) -- può accelerare l'addestramento dei CM di ordini di grandezza e persino superare la metrica di similarità percettiva delle patch di immagine appresa (LPIPS). Inoltre, scopriamo che la nostra funzione di perdita consente l'addestramento con dimensioni di batch estremamente piccole senza compromettere la qualità dei campioni. Codice: https://github.com/1202kbs/AYT
English
With diffusion and flow matching models achieving state-of-the-art generating performance, the interest of the community now turned to reducing the inference time without sacrificing sample quality. Consistency Models (CMs), which are trained to be consistent on diffusion or probability flow ordinary differential equation (PF-ODE) trajectories, enable one or two-step flow or diffusion sampling. However, CMs typically require prolonged training with large batch sizes to obtain competitive sample quality. In this paper, we examine the training dynamics of CMs near convergence and discover that CM tangents -- CM output update directions -- are quite oscillatory, in the sense that they move parallel to the data manifold, not towards the manifold. To mitigate oscillatory tangents, we propose a new loss function, called the manifold feature distance (MFD), which provides manifold-aligned tangents that point toward the data manifold. Consequently, our method -- dubbed Align Your Tangent (AYT) -- can accelerate CM training by orders of magnitude and even out-perform the learned perceptual image patch similarity metric (LPIPS). Furthermore, we find that our loss enables training with extremely small batch sizes without compromising sample quality. Code: https://github.com/1202kbs/AYT
PDF32October 6, 2025