Verbesserte Schulungstechnik für Latenzkonsistenzmodelle
Improved Training Technique for Latent Consistency Models
February 3, 2025
Autoren: Quan Dao, Khanh Doan, Di Liu, Trung Le, Dimitris Metaxas
cs.AI
Zusammenfassung
Konsistenzmodelle sind eine neue Familie generativer Modelle, die in der Lage sind, hochwertige Proben entweder in einem einzigen Schritt oder in mehreren Schritten zu erzeugen. In letzter Zeit haben Konsistenzmodelle beeindruckende Leistungen gezeigt und Ergebnisse erzielt, die mit Diffusionsmodellen im Pixelraum vergleichbar sind. Der Erfolg beim Skalieren des Konsistenztrainings auf Datensätze im großen Maßstab, insbesondere für Text-zu-Bild- und Video-Generierungsaufgaben, hängt jedoch von der Leistung im latenten Raum ab. In dieser Arbeit analysieren wir die statistischen Unterschiede zwischen Pixel- und latenten Räumen und entdecken, dass latente Daten oft stark impulsartige Ausreißer enthalten, die die Leistung von iCT im latenten Raum erheblich beeinträchtigen. Um dies zu lösen, ersetzen wir Pseudo-Huber-Verluste durch Cauchy-Verluste, um den Einfluss von Ausreißern effektiv zu mindern. Darüber hinaus führen wir einen Diffusionsverlust in frühen Zeitschritten ein und verwenden Optimal Transport (OT)-Kopplung, um die Leistung weiter zu verbessern. Schließlich führen wir den adaptiven Skalierungs-c-Zeitplan ein, um den robusten Schulungsprozess zu steuern, und übernehmen Non-scaling LayerNorm in die Architektur, um die Statistiken der Merkmale besser zu erfassen und den Einfluss von Ausreißern zu reduzieren. Mit diesen Strategien können wir latenten Konsistenzmodellen erfolgreiches Training ermöglichen, das hochwertige Proben in einem oder zwei Schritten erzeugen kann und den Leistungsunterschied zwischen latenten Konsistenz- und Diffusionsmodellen signifikant verringert. Die Implementierung ist hier veröffentlicht: https://github.com/quandao10/sLCT/
English
Consistency models are a new family of generative models capable of producing
high-quality samples in either a single step or multiple steps. Recently,
consistency models have demonstrated impressive performance, achieving results
on par with diffusion models in the pixel space. However, the success of
scaling consistency training to large-scale datasets, particularly for
text-to-image and video generation tasks, is determined by performance in the
latent space. In this work, we analyze the statistical differences between
pixel and latent spaces, discovering that latent data often contains highly
impulsive outliers, which significantly degrade the performance of iCT in the
latent space. To address this, we replace Pseudo-Huber losses with Cauchy
losses, effectively mitigating the impact of outliers. Additionally, we
introduce a diffusion loss at early timesteps and employ optimal transport (OT)
coupling to further enhance performance. Lastly, we introduce the adaptive
scaling-c scheduler to manage the robust training process and adopt
Non-scaling LayerNorm in the architecture to better capture the statistics of
the features and reduce outlier impact. With these strategies, we successfully
train latent consistency models capable of high-quality sampling with one or
two steps, significantly narrowing the performance gap between latent
consistency and diffusion models. The implementation is released here:
https://github.com/quandao10/sLCT/Summary
AI-Generated Summary