1. FLUX de 58 bits

papers.abstract

Nous présentons FLUX à 1,58 bits, la première approche réussie pour quantifier le modèle de génération de texte en image de pointe, FLUX.1-dev, en utilisant des poids à 1,58 bits (c'est-à-dire des valeurs dans {-1, 0, +1}) tout en maintenant des performances comparables pour la génération d'images de 1024 x 1024. Notablement, notre méthode de quantification fonctionne sans accès aux données d'image, reposant uniquement sur l'auto-supervision du modèle FLUX.1-dev. De plus, nous développons un noyau personnalisé optimisé pour des opérations à 1,58 bits, atteignant une réduction de 7,7 fois du stockage du modèle, une réduction de 5,1 fois de la mémoire d'inférence et une amélioration de la latence d'inférence. Des évaluations approfondies sur les bancs d'essai GenEval et T2I Compbench démontrent l'efficacité de FLUX à 1,58 bits pour maintenir la qualité de génération tout en améliorant significativement l'efficacité computationnelle.

English

We present 1.58-bit FLUX, the first successful approach to quantizing the state-of-the-art text-to-image generation model, FLUX.1-dev, using 1.58-bit weights (i.e., values in {-1, 0, +1}) while maintaining comparable performance for generating 1024 x 1024 images. Notably, our quantization method operates without access to image data, relying solely on self-supervision from the FLUX.1-dev model. Additionally, we develop a custom kernel optimized for 1.58-bit operations, achieving a 7.7x reduction in model storage, a 5.1x reduction in inference memory, and improved inference latency. Extensive evaluations on the GenEval and T2I Compbench benchmarks demonstrate the effectiveness of 1.58-bit FLUX in maintaining generation quality while significantly enhancing computational efficiency.