ChatPaper.aiChatPaper

1.58-bit FLUX 1,58-bits FLUX

1.58-bit FLUX

December 24, 2024
Auteurs: Chenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen
cs.AI

Samenvatting

We presenteren 1,58-bit FLUX, de eerste succesvolle benadering om het toonaangevende tekst-naar-afbeelding generatiemodel, FLUX.1-dev, te kwantiseren met 1,58-bit gewichten (d.w.z. waarden in {-1, 0, +1}) terwijl we vergelijkbare prestaties behouden voor het genereren van 1024 x 1024 afbeeldingen. Opmerkelijk is dat onze kwantisatiemethode werkt zonder toegang tot afbeeldingsgegevens, en uitsluitend vertrouwt op zelftoezicht van het FLUX.1-dev model. Daarnaast hebben we een aangepaste kernel ontwikkeld die geoptimaliseerd is voor 1,58-bit operaties, wat resulteert in een 7,7x reductie in modelopslag, een 5,1x reductie in inferentiememory, en verbeterde inferentievertraging. Uitgebreide evaluaties op de GenEval en T2I Compbench benchmarks tonen de effectiviteit aan van 1,58-bit FLUX in het behouden van generatiekwaliteit terwijl de computationele efficiëntie aanzienlijk wordt verbeterd.
English
We present 1.58-bit FLUX, the first successful approach to quantizing the state-of-the-art text-to-image generation model, FLUX.1-dev, using 1.58-bit weights (i.e., values in {-1, 0, +1}) while maintaining comparable performance for generating 1024 x 1024 images. Notably, our quantization method operates without access to image data, relying solely on self-supervision from the FLUX.1-dev model. Additionally, we develop a custom kernel optimized for 1.58-bit operations, achieving a 7.7x reduction in model storage, a 5.1x reduction in inference memory, and improved inference latency. Extensive evaluations on the GenEval and T2I Compbench benchmarks demonstrate the effectiveness of 1.58-bit FLUX in maintaining generation quality while significantly enhancing computational efficiency.
PDF846December 30, 2024