BitsFusion: 1,99-Bit-Gewichtsquantisierung des Diffusionsmodells

papers.abstract

Diffusionsbasierte Bildgenerierungsmodelle haben in den letzten Jahren großen Erfolg erzielt, indem sie die Fähigkeit zur Synthese von Inhalten hoher Qualität gezeigt haben. Diese Modelle enthalten jedoch eine große Anzahl von Parametern, was zu einer signifikant großen Modellgröße führt. Das Speichern und Übertragen dieser Modelle ist ein wesentlicher Engpass für verschiedene Anwendungen, insbesondere solche, die auf ressourcenbeschränkten Geräten ausgeführt werden. In dieser Arbeit entwickeln wir eine neuartige Methode zur Gewichtsquantisierung, die das UNet von Stable Diffusion v1.5 auf 1,99 Bits quantisiert und ein Modell mit 7,9-fach kleinerer Größe erreicht, während es sogar eine bessere Generierungsqualität als das Original aufweist. Unser Ansatz umfasst mehrere neuartige Techniken, wie die Zuweisung optimaler Bits an jede Schicht, die Initialisierung des quantisierten Modells für bessere Leistung und die Verbesserung der Trainingsstrategie zur drastischen Reduzierung des Quantisierungsfehlers. Darüber hinaus evaluieren wir unser quantisiertes Modell umfassend anhand verschiedener Benchmark-Datensätze und durch menschliche Bewertung, um seine überlegene Generierungsqualität zu demonstrieren.

English

Diffusion-based image generation models have achieved great success in recent years by showing the capability of synthesizing high-quality content. However, these models contain a huge number of parameters, resulting in a significantly large model size. Saving and transferring them is a major bottleneck for various applications, especially those running on resource-constrained devices. In this work, we develop a novel weight quantization method that quantizes the UNet from Stable Diffusion v1.5 to 1.99 bits, achieving a model with 7.9X smaller size while exhibiting even better generation quality than the original one. Our approach includes several novel techniques, such as assigning optimal bits to each layer, initializing the quantized model for better performance, and improving the training strategy to dramatically reduce quantization error. Furthermore, we extensively evaluate our quantized model across various benchmark datasets and through human evaluation to demonstrate its superior generation quality.

BitsFusion: 1,99-Bit-Gewichtsquantisierung des Diffusionsmodells

BitsFusion: 1.99 bits Weight Quantization of Diffusion Model

papers.abstract

Support