iFSQ: Verbetering van FSQ voor beeldgeneratie met 1 regel code

Samenvatting

Het vakgebied van beeldgeneratie is momenteel verdeeld in autoregressieve (AR) modellen die werken met discrete tokens en diffusiemodellen die gebruikmaken van continue latente representaties. Deze tweedeling, geworteld in het onderscheid tussen VQ-VAEs en VAEs, belemmert uniforme modellering en eerlijke benchmarking. Finite Scalar Quantization (FSQ) biedt een theoretische brug, maar de standaard FSQ-versie lijdt onder een kritiek gebrek: de kwantisering met gelijke intervallen kan leiden tot activeringscollaps. Deze mismatch dwingt tot een afweging tussen reconstructienauwkeurigheid en informatie-efficiëntie. In dit werk lossen we dit dilemma op door simpelweg de activeringsfunctie in de oorspronkelijke FSQ te vervangen door een mapping die de verdeling afstemt om een uniforme prior af te dwingen. Deze eenvoudige strategie, iFSQ genoemd, vereist slechts één regel code, maar garandeert wiskundig zowel optimaal bin-gebruik als reconstructieprecisie. Door iFSQ als gecontroleerde benchmark te gebruiken, onthullen we twee belangrijke inzichten: (1) Het optimale evenwicht tussen discrete en continue representaties ligt bij ongeveer 4 bits per dimensie. (2) Onder identieke reconstructiebeperkingen vertonen AR-modellen een snelle initiële convergentie, terwijl diffusiemodellen een superieur prestatieniveau bereiken, wat suggereert dat strikte sequentiële ordening de bovengrens van de generatiekwaliteit kan beperken. Ten slotte breiden we onze analyse uit door Representation Alignment (REPA) aan te passen voor AR-modellen, wat resulteert in LlamaGen-REPA. Code is beschikbaar op https://github.com/Tencent-Hunyuan/iFSQ.

English

The field of image generation is currently bifurcated into autoregressive (AR) models operating on discrete tokens and diffusion models utilizing continuous latents. This divide, rooted in the distinction between VQ-VAEs and VAEs, hinders unified modeling and fair benchmarking. Finite Scalar Quantization (FSQ) offers a theoretical bridge, yet vanilla FSQ suffers from a critical flaw: its equal-interval quantization can cause activation collapse. This mismatch forces a trade-off between reconstruction fidelity and information efficiency. In this work, we resolve this dilemma by simply replacing the activation function in original FSQ with a distribution-matching mapping to enforce a uniform prior. Termed iFSQ, this simple strategy requires just one line of code yet mathematically guarantees both optimal bin utilization and reconstruction precision. Leveraging iFSQ as a controlled benchmark, we uncover two key insights: (1) The optimal equilibrium between discrete and continuous representations lies at approximately 4 bits per dimension. (2) Under identical reconstruction constraints, AR models exhibit rapid initial convergence, whereas diffusion models achieve a superior performance ceiling, suggesting that strict sequential ordering may limit the upper bounds of generation quality. Finally, we extend our analysis by adapting Representation Alignment (REPA) to AR models, yielding LlamaGen-REPA. Codes is available at https://github.com/Tencent-Hunyuan/iFSQ

iFSQ: Verbetering van FSQ voor beeldgeneratie met 1 regel code

iFSQ: Improving FSQ for Image Generation with 1 Line of Code

Samenvatting

Support