ChatPaper.aiChatPaper

iFSQ : Amélioration de FSQ pour la génération d'images avec 1 ligne de code

iFSQ: Improving FSQ for Image Generation with 1 Line of Code

January 23, 2026
papers.authors: Bin Lin, Zongjian Li, Yuwei Niu, Kaixiong Gong, Yunyang Ge, Yunlong Lin, Mingzhe Zheng, JianWei Zhang, Miles Yang, Zhao Zhong, Liefeng Bo, Li Yuan
cs.AI

papers.abstract

Le domaine de la génération d'images est actuellement scindé entre les modèles autorégressifs (AR) opérant sur des tokens discrets et les modèles de diffusion utilisant des latents continus. Cette division, ancrée dans la distinction entre VQ-VAEs et VAEs, entrave la modélisation unifiée et l'établissement de benchmarks équitables. La quantification scalaire finie (FSQ) offre une passerelle théorique, mais la FSQ standard souffre d'un défaut critique : sa quantification à intervalles égaux peut provoquer un effondrement des activations. Cette inadéquation impose un compromis entre la fidélité de reconstruction et l'efficacité informationnelle. Dans ce travail, nous résolvons ce dilemme en remplaçant simplement la fonction d'activation de la FSQ originale par un mappage d'alignement distributionnel pour imposer un a priori uniforme. Baptisée iFSQ, cette stratégie simple ne nécessite qu'une ligne de code tout en garantissant mathématiquement à la fois une utilisation optimale des bins et une précision de reconstruction. En utilisant iFSQ comme benchmark contrôlé, nous révélons deux insights clés : (1) L'équilibre optimal entre représentations discrètes et continues se situe autour d'environ 4 bits par dimension. (2) Sous des contraintes de reconstruction identiques, les modèles AR présentent une convergence initiale rapide, tandis que les modèles de diffusion atteignent un plafond de performance supérieur, suggérant que l'ordonnancement séquentiel strict pourrait limiter les bornes supérieures de la qualité de génération. Enfin, nous étendons notre analyse en adaptant l'alignement des représentations (REPA) aux modèles AR, produisant ainsi LlamaGen-REPA. Les codes sont disponibles à l'adresse https://github.com/Tencent-Hunyuan/iFSQ.
English
The field of image generation is currently bifurcated into autoregressive (AR) models operating on discrete tokens and diffusion models utilizing continuous latents. This divide, rooted in the distinction between VQ-VAEs and VAEs, hinders unified modeling and fair benchmarking. Finite Scalar Quantization (FSQ) offers a theoretical bridge, yet vanilla FSQ suffers from a critical flaw: its equal-interval quantization can cause activation collapse. This mismatch forces a trade-off between reconstruction fidelity and information efficiency. In this work, we resolve this dilemma by simply replacing the activation function in original FSQ with a distribution-matching mapping to enforce a uniform prior. Termed iFSQ, this simple strategy requires just one line of code yet mathematically guarantees both optimal bin utilization and reconstruction precision. Leveraging iFSQ as a controlled benchmark, we uncover two key insights: (1) The optimal equilibrium between discrete and continuous representations lies at approximately 4 bits per dimension. (2) Under identical reconstruction constraints, AR models exhibit rapid initial convergence, whereas diffusion models achieve a superior performance ceiling, suggesting that strict sequential ordering may limit the upper bounds of generation quality. Finally, we extend our analysis by adapting Representation Alignment (REPA) to AR models, yielding LlamaGen-REPA. Codes is available at https://github.com/Tencent-Hunyuan/iFSQ
PDF241January 28, 2026