1. 58-битный FLUX
1.58-bit FLUX
December 24, 2024
Авторы: Chenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Аннотация
Мы представляем 1,58-битный FLUX, первый успешный подход к квантованию передовой модели генерации текста в изображение, FLUX.1-dev, с использованием весов 1,58 бит (т.е. значений в {-1, 0, +1}), сохраняя при этом сопоставимую производительность при генерации изображений размером 1024 x 1024. Следует отметить, что наш метод квантования работает без доступа к изображениям, полагаясь исключительно на самонадзор от модели FLUX.1-dev. Кроме того, мы разработали специализированное ядро, оптимизированное для операций с 1,58-битами, достигнув уменьшения объема хранения модели в 7,7 раз, уменьшения памяти для вывода в 5,1 раз и улучшения задержки вывода. Обширные оценки на бенчмарках GenEval и T2I Compbench демонстрируют эффективность 1,58-битного FLUX в поддержании качества генерации при значительном улучшении вычислительной эффективности.
English
We present 1.58-bit FLUX, the first successful approach to quantizing the
state-of-the-art text-to-image generation model, FLUX.1-dev, using 1.58-bit
weights (i.e., values in {-1, 0, +1}) while maintaining comparable performance
for generating 1024 x 1024 images. Notably, our quantization method operates
without access to image data, relying solely on self-supervision from the
FLUX.1-dev model. Additionally, we develop a custom kernel optimized for
1.58-bit operations, achieving a 7.7x reduction in model storage, a 5.1x
reduction in inference memory, and improved inference latency. Extensive
evaluations on the GenEval and T2I Compbench benchmarks demonstrate the
effectiveness of 1.58-bit FLUX in maintaining generation quality while
significantly enhancing computational efficiency.Summary
AI-Generated Summary