iFSQ: Verbesserung von FSQ für die Bildgenerierung mit 1 Zeile Code
iFSQ: Improving FSQ for Image Generation with 1 Line of Code
January 23, 2026
papers.authors: Bin Lin, Zongjian Li, Yuwei Niu, Kaixiong Gong, Yunyang Ge, Yunlong Lin, Mingzhe Zheng, JianWei Zhang, Miles Yang, Zhao Zhong, Liefeng Bo, Li Yuan
cs.AI
papers.abstract
Der Bereich der Bildgenerierung ist derzeit in autoregressive (AR) Modelle, die auf diskreten Tokens operieren, und Diffusionsmodelle, die kontinuierliche Latents nutzen, gespalten. Diese Trennung, die in der Unterscheidung zwischen VQ-VAEs und VAEs wurzelt, behindert eine einheitliche Modellierung und faire Benchmarking-Verfahren. Finite Scalar Quantization (FSQ) bietet eine theoretische Brücke, doch die Standard-FSQ weist einen kritischen Fehler auf: Ihre Quantisierung mit gleichmäßigen Intervallen kann einen Aktivierungs-Kollaps verursachen. Diese Fehlanpassung erzwingt einen Zielkonflikt zwischen Rekonstruktionstreue und Informationseffizienz. In dieser Arbeit lösen wir dieses Dilemma, indem wir einfach die Aktivierungsfunktion in der ursprünglichen FSQ durch eine Abbildung zur Verteilungsanpassung ersetzen, um eine uniforme A-priori-Verteilung zu erzwingen. Diese einfache Strategie, genannt iFSQ, erfordert nur eine Codezeile, gewährleistet aber mathematisch sowohl eine optimale Bin-Auslastung als auch Rekonstruktionspräzision. Indem wir iFSQ als kontrollierte Benchmark verwenden, gewinnen wir zwei zentrale Erkenntnisse: (1) Das optimale Gleichgewicht zwischen diskreten und kontinuierlichen Repräsentationen liegt bei etwa 4 Bits pro Dimension. (2) Unter identischen Rekonstruktionsbedingungen zeigen AR-Modelle eine rasche initiale Konvergenz, während Diffusionsmodelle eine höhere Leistungsobergrenze erreichen, was nahelegt, dass eine strikte sequentielle Ordnung die oberen Grenzen der Generierungsqualität begrenzen könnte. Abschließend erweitern wir unsere Analyse, indem wir Representation Alignment (REPA) für AR-Modelle adaptieren, was zu LlamaGen-REPA führt. Der Code ist verfügbar unter https://github.com/Tencent-Hunyuan/iFSQ.
English
The field of image generation is currently bifurcated into autoregressive (AR) models operating on discrete tokens and diffusion models utilizing continuous latents. This divide, rooted in the distinction between VQ-VAEs and VAEs, hinders unified modeling and fair benchmarking. Finite Scalar Quantization (FSQ) offers a theoretical bridge, yet vanilla FSQ suffers from a critical flaw: its equal-interval quantization can cause activation collapse. This mismatch forces a trade-off between reconstruction fidelity and information efficiency. In this work, we resolve this dilemma by simply replacing the activation function in original FSQ with a distribution-matching mapping to enforce a uniform prior. Termed iFSQ, this simple strategy requires just one line of code yet mathematically guarantees both optimal bin utilization and reconstruction precision. Leveraging iFSQ as a controlled benchmark, we uncover two key insights: (1) The optimal equilibrium between discrete and continuous representations lies at approximately 4 bits per dimension. (2) Under identical reconstruction constraints, AR models exhibit rapid initial convergence, whereas diffusion models achieve a superior performance ceiling, suggesting that strict sequential ordering may limit the upper bounds of generation quality. Finally, we extend our analysis by adapting Representation Alignment (REPA) to AR models, yielding LlamaGen-REPA. Codes is available at https://github.com/Tencent-Hunyuan/iFSQ