1.58-bit FLUX 1,58-bits FLUX
1.58-bit FLUX
December 24, 2024
Auteurs: Chenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Samenvatting
We presenteren 1,58-bit FLUX, de eerste succesvolle benadering om het toonaangevende tekst-naar-afbeelding generatiemodel, FLUX.1-dev, te kwantiseren met 1,58-bit gewichten (d.w.z. waarden in {-1, 0, +1}) terwijl we vergelijkbare prestaties behouden voor het genereren van 1024 x 1024 afbeeldingen. Opmerkelijk is dat onze kwantisatiemethode werkt zonder toegang tot afbeeldingsgegevens, en uitsluitend vertrouwt op zelftoezicht van het FLUX.1-dev model. Daarnaast hebben we een aangepaste kernel ontwikkeld die geoptimaliseerd is voor 1,58-bit operaties, wat resulteert in een 7,7x reductie in modelopslag, een 5,1x reductie in inferentiememory, en verbeterde inferentievertraging. Uitgebreide evaluaties op de GenEval en T2I Compbench benchmarks tonen de effectiviteit aan van 1,58-bit FLUX in het behouden van generatiekwaliteit terwijl de computationele efficiëntie aanzienlijk wordt verbeterd.
English
We present 1.58-bit FLUX, the first successful approach to quantizing the
state-of-the-art text-to-image generation model, FLUX.1-dev, using 1.58-bit
weights (i.e., values in {-1, 0, +1}) while maintaining comparable performance
for generating 1024 x 1024 images. Notably, our quantization method operates
without access to image data, relying solely on self-supervision from the
FLUX.1-dev model. Additionally, we develop a custom kernel optimized for
1.58-bit operations, achieving a 7.7x reduction in model storage, a 5.1x
reduction in inference memory, and improved inference latency. Extensive
evaluations on the GenEval and T2I Compbench benchmarks demonstrate the
effectiveness of 1.58-bit FLUX in maintaining generation quality while
significantly enhancing computational efficiency.