Tecnica di Allenamento Migliorata per Modelli di Coerenza Latente
Improved Training Technique for Latent Consistency Models
February 3, 2025
Autori: Quan Dao, Khanh Doan, Di Liu, Trung Le, Dimitris Metaxas
cs.AI
Abstract
I modelli di consistenza sono una nuova famiglia di modelli generativi capaci di produrre campioni di alta qualità in un singolo passaggio o in passaggi multipli. Di recente, i modelli di consistenza hanno dimostrato un'eccezionale performance, ottenendo risultati paragonabili ai modelli di diffusione nello spazio dei pixel. Tuttavia, il successo dello scalare l'addestramento della consistenza a set di dati su larga scala, in particolare per compiti di generazione di testo-immagine e video, è determinato dalla performance nello spazio latente. In questo lavoro, analizziamo le differenze statistiche tra gli spazi dei pixel e latenti, scoprendo che i dati latenti spesso contengono valori anomali altamente impulsivi, che degradano significativamente la performance di iCT nello spazio latente. Per affrontare questo problema, sostituiamo le perdite Pseudo-Huber con perdite Cauchy, mitigando efficacemente l'impatto degli outlier. Inoltre, introduciamo una perdita di diffusione ai primi passaggi e utilizziamo l'accoppiamento del trasporto ottimale (OT) per migliorare ulteriormente la performance. Infine, introduciamo lo scheduler di scaling-c adattivo per gestire il processo di addestramento robusto e adottiamo il LayerNorm non scalabile nell'architettura per catturare meglio le statistiche delle caratteristiche e ridurre l'impatto degli outlier. Con queste strategie, addestriamo con successo modelli di consistenza latente capaci di campionare ad alta qualità con uno o due passaggi, riducendo significativamente il divario di performance tra la consistenza latente e i modelli di diffusione. L'implementazione è disponibile qui: https://github.com/quandao10/sLCT/
English
Consistency models are a new family of generative models capable of producing
high-quality samples in either a single step or multiple steps. Recently,
consistency models have demonstrated impressive performance, achieving results
on par with diffusion models in the pixel space. However, the success of
scaling consistency training to large-scale datasets, particularly for
text-to-image and video generation tasks, is determined by performance in the
latent space. In this work, we analyze the statistical differences between
pixel and latent spaces, discovering that latent data often contains highly
impulsive outliers, which significantly degrade the performance of iCT in the
latent space. To address this, we replace Pseudo-Huber losses with Cauchy
losses, effectively mitigating the impact of outliers. Additionally, we
introduce a diffusion loss at early timesteps and employ optimal transport (OT)
coupling to further enhance performance. Lastly, we introduce the adaptive
scaling-c scheduler to manage the robust training process and adopt
Non-scaling LayerNorm in the architecture to better capture the statistics of
the features and reduce outlier impact. With these strategies, we successfully
train latent consistency models capable of high-quality sampling with one or
two steps, significantly narrowing the performance gap between latent
consistency and diffusion models. The implementation is released here:
https://github.com/quandao10/sLCT/Summary
AI-Generated Summary