iFSQ: Улучшение FSQ для генерации изображений с помощью 1 строки кода
iFSQ: Improving FSQ for Image Generation with 1 Line of Code
January 23, 2026
Авторы: Bin Lin, Zongjian Li, Yuwei Niu, Kaixiong Gong, Yunyang Ge, Yunlong Lin, Mingzhe Zheng, JianWei Zhang, Miles Yang, Zhao Zhong, Liefeng Bo, Li Yuan
cs.AI
Аннотация
Современная область генерации изображений разделена на авторегрессионные (AR) модели, работающие с дискретными токенами, и диффузионные модели, использующие непрерывные латентные переменные. Этот раскол, уходящий корнями в различие между VQ-VAE и VAE, препятствует унифицированному моделированию и объективному сравнительному анализу. Конечное скалярное квантование (FSQ) предлагает теоретический мост, однако классический FSQ страдает от критического недостатка: его равномерное квантование может вызывать коллапс активаций. Это несоответствие вынуждает идти на компромисс между точностью реконструкции и информационной эффективностью. В данной работе мы разрешаем эту дилемму, просто заменяя функцию активации в исходном FSQ на отображение, согласованное с распределением, для обеспечения равномерного априорного распределения. Названный iFSQ, этот простой стратегический шаг требует всего одной строки кода, но математически гарантирует как оптимальное использование интервалов квантования, так и точность восстановления. Используя iFSQ в качестве контролируемого эталона, мы выявили два ключевых insight'а: (1) Оптимальный баланс между дискретными и непрерывными представлениями достигается при примерно 4 битах на размерность. (2) При идентичных ограничениях на реконструкцию AR-модели демонстрируют быструю начальную сходимость, тогда как диффузионные модели достигают более высокого потолка производительности, что позволяет предположить, что строгая последовательная упорядоченность может ограничивать верхние границы качества генерации. Наконец, мы расширяем наш анализ, адаптируя Выравнивание Представлений (REPA) для AR-моделей, получая LlamaGen-REPA. Код доступен по адресу https://github.com/Tencent-Hunyuan/iFSQ
English
The field of image generation is currently bifurcated into autoregressive (AR) models operating on discrete tokens and diffusion models utilizing continuous latents. This divide, rooted in the distinction between VQ-VAEs and VAEs, hinders unified modeling and fair benchmarking. Finite Scalar Quantization (FSQ) offers a theoretical bridge, yet vanilla FSQ suffers from a critical flaw: its equal-interval quantization can cause activation collapse. This mismatch forces a trade-off between reconstruction fidelity and information efficiency. In this work, we resolve this dilemma by simply replacing the activation function in original FSQ with a distribution-matching mapping to enforce a uniform prior. Termed iFSQ, this simple strategy requires just one line of code yet mathematically guarantees both optimal bin utilization and reconstruction precision. Leveraging iFSQ as a controlled benchmark, we uncover two key insights: (1) The optimal equilibrium between discrete and continuous representations lies at approximately 4 bits per dimension. (2) Under identical reconstruction constraints, AR models exhibit rapid initial convergence, whereas diffusion models achieve a superior performance ceiling, suggesting that strict sequential ordering may limit the upper bounds of generation quality. Finally, we extend our analysis by adapting Representation Alignment (REPA) to AR models, yielding LlamaGen-REPA. Codes is available at https://github.com/Tencent-Hunyuan/iFSQ