Verbeterde Trainingsmethode voor Latente Consistentie Modellen

Samenvatting

Consistentiemodellen zijn een nieuwe familie van generatieve modellen die in staat zijn om hoogwaardige samples te produceren in één stap of meerdere stappen. Onlangs hebben consistentiemodellen indrukwekkende prestaties laten zien, met resultaten die vergelijkbaar zijn met diffusiemodellen in de pixelruimte. Het succes van het opschalen van consistentietraining naar grootschalige datasets, met name voor tekst-naar-afbeelding en videogeneratietaken, wordt echter bepaald door de prestaties in de latente ruimte. In dit werk analyseren we de statistische verschillen tussen pixel- en latente ruimtes en ontdekken dat latente gegevens vaak zeer impulsieve uitschieters bevatten, die de prestaties van iCT in de latente ruimte aanzienlijk verminderen. Om dit aan te pakken, vervangen we Pseudo-Huber verliezen door Cauchy verliezen, waardoor de impact van uitschieters effectief wordt verminderd. Daarnaast introduceren we een diffusieverlies in de vroege tijdstappen en maken we gebruik van optimaal transport (OT) koppeling om de prestaties verder te verbeteren. Ten slotte introduceren we de adaptieve schaal-c planner om het robuuste trainingsproces te beheren en passen we Non-scaling LayerNorm toe in de architectuur om de statistieken van de kenmerken beter vast te leggen en de impact van uitschieters te verminderen. Met deze strategieën trainen we succesvol latente consistentiemodellen die in staat zijn tot het produceren van hoogwaardige samples in één of twee stappen, waardoor het prestatieverschil tussen latente consistentie en diffusiemodellen aanzienlijk wordt verkleind. De implementatie is hier beschikbaar: https://github.com/quandao10/sLCT/

English

Consistency models are a new family of generative models capable of producing high-quality samples in either a single step or multiple steps. Recently, consistency models have demonstrated impressive performance, achieving results on par with diffusion models in the pixel space. However, the success of scaling consistency training to large-scale datasets, particularly for text-to-image and video generation tasks, is determined by performance in the latent space. In this work, we analyze the statistical differences between pixel and latent spaces, discovering that latent data often contains highly impulsive outliers, which significantly degrade the performance of iCT in the latent space. To address this, we replace Pseudo-Huber losses with Cauchy losses, effectively mitigating the impact of outliers. Additionally, we introduce a diffusion loss at early timesteps and employ optimal transport (OT) coupling to further enhance performance. Lastly, we introduce the adaptive scaling-c scheduler to manage the robust training process and adopt Non-scaling LayerNorm in the architecture to better capture the statistics of the features and reduce outlier impact. With these strategies, we successfully train latent consistency models capable of high-quality sampling with one or two steps, significantly narrowing the performance gap between latent consistency and diffusion models. The implementation is released here: https://github.com/quandao10/sLCT/

Verbeterde Trainingsmethode voor Latente Consistentie Modellen

Improved Training Technique for Latent Consistency Models

Samenvatting

Support