ChatPaper.aiChatPaper

1,58-Bit FLUX

1.58-bit FLUX

December 24, 2024
Autoren: Chenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen
cs.AI

Zusammenfassung

Wir präsentieren 1,58-Bit FLUX, den ersten erfolgreichen Ansatz zur Quantisierung des modernsten Text-zu-Bild-Generierungsmodells, FLUX.1-dev, unter Verwendung von 1,58-Bit-Gewichten (d. h. Werten in {-1, 0, +1}), während eine vergleichbare Leistung für die Generierung von 1024 x 1024 Bildern beibehalten wird. Bemerkenswert ist, dass unsere Quantisierungsmethode ohne Zugriff auf Bilddaten funktioniert und ausschließlich auf der Selbstüberwachung des FLUX.1-dev-Modells beruht. Darüber hinaus entwickeln wir einen benutzerdefinierten Kernel, der für 1,58-Bit-Operationen optimiert ist und eine 7,7-fache Reduzierung des Modellspeichers, eine 5,1-fache Reduzierung des Inferenzspeichers und eine verbesserte Inferenzlatenz erreicht. Umfangreiche Bewertungen anhand der GenEval- und T2I Compbench-Benchmarks zeigen die Wirksamkeit von 1,58-Bit FLUX bei der Aufrechterhaltung der Generierungsqualität und gleichzeitigen signifikanten Verbesserung der Recheneffizienz.
English
We present 1.58-bit FLUX, the first successful approach to quantizing the state-of-the-art text-to-image generation model, FLUX.1-dev, using 1.58-bit weights (i.e., values in {-1, 0, +1}) while maintaining comparable performance for generating 1024 x 1024 images. Notably, our quantization method operates without access to image data, relying solely on self-supervision from the FLUX.1-dev model. Additionally, we develop a custom kernel optimized for 1.58-bit operations, achieving a 7.7x reduction in model storage, a 5.1x reduction in inference memory, and improved inference latency. Extensive evaluations on the GenEval and T2I Compbench benchmarks demonstrate the effectiveness of 1.58-bit FLUX in maintaining generation quality while significantly enhancing computational efficiency.

Summary

AI-Generated Summary

PDF846December 30, 2024