BitsFusion: 1,99-Bit-Gewichtsquantisierung des Diffusionsmodells
BitsFusion: 1.99 bits Weight Quantization of Diffusion Model
June 6, 2024
Autoren: Yang Sui, Yanyu Li, Anil Kag, Yerlan Idelbayev, Junli Cao, Ju Hu, Dhritiman Sagar, Bo Yuan, Sergey Tulyakov, Jian Ren
cs.AI
Zusammenfassung
Diffusionsbasierte Bildgenerierungsmodelle haben in den letzten Jahren großen Erfolg erzielt, indem sie die Fähigkeit zur Synthese von Inhalten hoher Qualität gezeigt haben. Diese Modelle enthalten jedoch eine große Anzahl von Parametern, was zu einer signifikant großen Modellgröße führt. Das Speichern und Übertragen dieser Modelle ist ein wesentlicher Engpass für verschiedene Anwendungen, insbesondere solche, die auf ressourcenbeschränkten Geräten ausgeführt werden. In dieser Arbeit entwickeln wir eine neuartige Methode zur Gewichtsquantisierung, die das UNet von Stable Diffusion v1.5 auf 1,99 Bits quantisiert und ein Modell mit 7,9-fach kleinerer Größe erreicht, während es sogar eine bessere Generierungsqualität als das Original aufweist. Unser Ansatz umfasst mehrere neuartige Techniken, wie die Zuweisung optimaler Bits an jede Schicht, die Initialisierung des quantisierten Modells für bessere Leistung und die Verbesserung der Trainingsstrategie zur drastischen Reduzierung des Quantisierungsfehlers. Darüber hinaus evaluieren wir unser quantisiertes Modell umfassend anhand verschiedener Benchmark-Datensätze und durch menschliche Bewertung, um seine überlegene Generierungsqualität zu demonstrieren.
English
Diffusion-based image generation models have achieved great success in recent
years by showing the capability of synthesizing high-quality content. However,
these models contain a huge number of parameters, resulting in a significantly
large model size. Saving and transferring them is a major bottleneck for
various applications, especially those running on resource-constrained devices.
In this work, we develop a novel weight quantization method that quantizes the
UNet from Stable Diffusion v1.5 to 1.99 bits, achieving a model with 7.9X
smaller size while exhibiting even better generation quality than the original
one. Our approach includes several novel techniques, such as assigning optimal
bits to each layer, initializing the quantized model for better performance,
and improving the training strategy to dramatically reduce quantization error.
Furthermore, we extensively evaluate our quantized model across various
benchmark datasets and through human evaluation to demonstrate its superior
generation quality.Summary
AI-Generated Summary