Tecnica di Allenamento Migliorata per Modelli di Coerenza Latente

Abstract

I modelli di consistenza sono una nuova famiglia di modelli generativi capaci di produrre campioni di alta qualità in un singolo passaggio o in passaggi multipli. Di recente, i modelli di consistenza hanno dimostrato un'eccezionale performance, ottenendo risultati paragonabili ai modelli di diffusione nello spazio dei pixel. Tuttavia, il successo dello scalare l'addestramento della consistenza a set di dati su larga scala, in particolare per compiti di generazione di testo-immagine e video, è determinato dalla performance nello spazio latente. In questo lavoro, analizziamo le differenze statistiche tra gli spazi dei pixel e latenti, scoprendo che i dati latenti spesso contengono valori anomali altamente impulsivi, che degradano significativamente la performance di iCT nello spazio latente. Per affrontare questo problema, sostituiamo le perdite Pseudo-Huber con perdite Cauchy, mitigando efficacemente l'impatto degli outlier. Inoltre, introduciamo una perdita di diffusione ai primi passaggi e utilizziamo l'accoppiamento del trasporto ottimale (OT) per migliorare ulteriormente la performance. Infine, introduciamo lo scheduler di scaling-c adattivo per gestire il processo di addestramento robusto e adottiamo il LayerNorm non scalabile nell'architettura per catturare meglio le statistiche delle caratteristiche e ridurre l'impatto degli outlier. Con queste strategie, addestriamo con successo modelli di consistenza latente capaci di campionare ad alta qualità con uno o due passaggi, riducendo significativamente il divario di performance tra la consistenza latente e i modelli di diffusione. L'implementazione è disponibile qui: https://github.com/quandao10/sLCT/

English

Consistency models are a new family of generative models capable of producing high-quality samples in either a single step or multiple steps. Recently, consistency models have demonstrated impressive performance, achieving results on par with diffusion models in the pixel space. However, the success of scaling consistency training to large-scale datasets, particularly for text-to-image and video generation tasks, is determined by performance in the latent space. In this work, we analyze the statistical differences between pixel and latent spaces, discovering that latent data often contains highly impulsive outliers, which significantly degrade the performance of iCT in the latent space. To address this, we replace Pseudo-Huber losses with Cauchy losses, effectively mitigating the impact of outliers. Additionally, we introduce a diffusion loss at early timesteps and employ optimal transport (OT) coupling to further enhance performance. Lastly, we introduce the adaptive scaling-c scheduler to manage the robust training process and adopt Non-scaling LayerNorm in the architecture to better capture the statistics of the features and reduce outlier impact. With these strategies, we successfully train latent consistency models capable of high-quality sampling with one or two steps, significantly narrowing the performance gap between latent consistency and diffusion models. The implementation is released here: https://github.com/quandao10/sLCT/

Tecnica di Allenamento Migliorata per Modelli di Coerenza Latente

Improved Training Technique for Latent Consistency Models

Abstract

Support