Verbesserte Schulungstechnik für Latenzkonsistenzmodelle

papers.abstract

Konsistenzmodelle sind eine neue Familie generativer Modelle, die in der Lage sind, hochwertige Proben entweder in einem einzigen Schritt oder in mehreren Schritten zu erzeugen. In letzter Zeit haben Konsistenzmodelle beeindruckende Leistungen gezeigt und Ergebnisse erzielt, die mit Diffusionsmodellen im Pixelraum vergleichbar sind. Der Erfolg beim Skalieren des Konsistenztrainings auf Datensätze im großen Maßstab, insbesondere für Text-zu-Bild- und Video-Generierungsaufgaben, hängt jedoch von der Leistung im latenten Raum ab. In dieser Arbeit analysieren wir die statistischen Unterschiede zwischen Pixel- und latenten Räumen und entdecken, dass latente Daten oft stark impulsartige Ausreißer enthalten, die die Leistung von iCT im latenten Raum erheblich beeinträchtigen. Um dies zu lösen, ersetzen wir Pseudo-Huber-Verluste durch Cauchy-Verluste, um den Einfluss von Ausreißern effektiv zu mindern. Darüber hinaus führen wir einen Diffusionsverlust in frühen Zeitschritten ein und verwenden Optimal Transport (OT)-Kopplung, um die Leistung weiter zu verbessern. Schließlich führen wir den adaptiven Skalierungs-c-Zeitplan ein, um den robusten Schulungsprozess zu steuern, und übernehmen Non-scaling LayerNorm in die Architektur, um die Statistiken der Merkmale besser zu erfassen und den Einfluss von Ausreißern zu reduzieren. Mit diesen Strategien können wir latenten Konsistenzmodellen erfolgreiches Training ermöglichen, das hochwertige Proben in einem oder zwei Schritten erzeugen kann und den Leistungsunterschied zwischen latenten Konsistenz- und Diffusionsmodellen signifikant verringert. Die Implementierung ist hier veröffentlicht: https://github.com/quandao10/sLCT/

English

Consistency models are a new family of generative models capable of producing high-quality samples in either a single step or multiple steps. Recently, consistency models have demonstrated impressive performance, achieving results on par with diffusion models in the pixel space. However, the success of scaling consistency training to large-scale datasets, particularly for text-to-image and video generation tasks, is determined by performance in the latent space. In this work, we analyze the statistical differences between pixel and latent spaces, discovering that latent data often contains highly impulsive outliers, which significantly degrade the performance of iCT in the latent space. To address this, we replace Pseudo-Huber losses with Cauchy losses, effectively mitigating the impact of outliers. Additionally, we introduce a diffusion loss at early timesteps and employ optimal transport (OT) coupling to further enhance performance. Lastly, we introduce the adaptive scaling-c scheduler to manage the robust training process and adopt Non-scaling LayerNorm in the architecture to better capture the statistics of the features and reduce outlier impact. With these strategies, we successfully train latent consistency models capable of high-quality sampling with one or two steps, significantly narrowing the performance gap between latent consistency and diffusion models. The implementation is released here: https://github.com/quandao10/sLCT/

Verbesserte Schulungstechnik für Latenzkonsistenzmodelle

Improved Training Technique for Latent Consistency Models

papers.abstract

Support