Verbeterde Trainingsmethode voor Latente Consistentie Modellen
Improved Training Technique for Latent Consistency Models
February 3, 2025
Auteurs: Quan Dao, Khanh Doan, Di Liu, Trung Le, Dimitris Metaxas
cs.AI
Samenvatting
Consistentiemodellen zijn een nieuwe familie van generatieve modellen die in staat zijn om hoogwaardige samples te produceren in één stap of meerdere stappen. Onlangs hebben consistentiemodellen indrukwekkende prestaties laten zien, met resultaten die vergelijkbaar zijn met diffusiemodellen in de pixelruimte. Het succes van het opschalen van consistentietraining naar grootschalige datasets, met name voor tekst-naar-afbeelding en videogeneratietaken, wordt echter bepaald door de prestaties in de latente ruimte. In dit werk analyseren we de statistische verschillen tussen pixel- en latente ruimtes en ontdekken dat latente gegevens vaak zeer impulsieve uitschieters bevatten, die de prestaties van iCT in de latente ruimte aanzienlijk verminderen. Om dit aan te pakken, vervangen we Pseudo-Huber verliezen door Cauchy verliezen, waardoor de impact van uitschieters effectief wordt verminderd. Daarnaast introduceren we een diffusieverlies in de vroege tijdstappen en maken we gebruik van optimaal transport (OT) koppeling om de prestaties verder te verbeteren. Ten slotte introduceren we de adaptieve schaal-c planner om het robuuste trainingsproces te beheren en passen we Non-scaling LayerNorm toe in de architectuur om de statistieken van de kenmerken beter vast te leggen en de impact van uitschieters te verminderen. Met deze strategieën trainen we succesvol latente consistentiemodellen die in staat zijn tot het produceren van hoogwaardige samples in één of twee stappen, waardoor het prestatieverschil tussen latente consistentie en diffusiemodellen aanzienlijk wordt verkleind. De implementatie is hier beschikbaar: https://github.com/quandao10/sLCT/
English
Consistency models are a new family of generative models capable of producing
high-quality samples in either a single step or multiple steps. Recently,
consistency models have demonstrated impressive performance, achieving results
on par with diffusion models in the pixel space. However, the success of
scaling consistency training to large-scale datasets, particularly for
text-to-image and video generation tasks, is determined by performance in the
latent space. In this work, we analyze the statistical differences between
pixel and latent spaces, discovering that latent data often contains highly
impulsive outliers, which significantly degrade the performance of iCT in the
latent space. To address this, we replace Pseudo-Huber losses with Cauchy
losses, effectively mitigating the impact of outliers. Additionally, we
introduce a diffusion loss at early timesteps and employ optimal transport (OT)
coupling to further enhance performance. Lastly, we introduce the adaptive
scaling-c scheduler to manage the robust training process and adopt
Non-scaling LayerNorm in the architecture to better capture the statistics of
the features and reduce outlier impact. With these strategies, we successfully
train latent consistency models capable of high-quality sampling with one or
two steps, significantly narrowing the performance gap between latent
consistency and diffusion models. The implementation is released here:
https://github.com/quandao10/sLCT/Summary
AI-Generated Summary