iFSQ: Migliorare FSQ per la generazione di immagini con 1 riga di codice

Abstract

Il campo della generazione di immagini è attualmente diviso tra modelli autoregressivi (AR) che operano su token discreti e modelli di diffusione che utilizzano latenti continui. Questa divisione, radicata nella distinzione tra VQ-VAE e VAE, ostacola la modellizzazione unificata e il benchmarking equo. La Quantizzazione Scalare Finita (FSQ) offre un ponte teorico, tuttavia la FSQ standard soffre di un difetto critico: la sua quantizzazione a intervalli uguali può causare un collasso delle attivazioni. Questo disallineamento impone un compromesso tra fedeltà di ricostruzione ed efficienza informativa. In questo lavoro, risolviamo questo dilemma semplicemente sostituendo la funzione di attivazione nella FSQ originale con una mappatura di allineamento distributivo per imporre un prior uniforme. Denominata iFSQ, questa semplice strategia richiede solo una riga di codice ma garantisce matematicamente sia l'utilizzo ottimale dei bin che la precisione di ricostruzione. Sfruttando iFSQ come benchmark controllato, scopriamo due intuizioni chiave: (1) L'equilibrio ottimale tra rappresentazioni discrete e continue si colloca a circa 4 bit per dimensione. (2) Sotto identici vincoli di ricostruzione, i modelli AR mostrano una convergenza iniziale rapida, mentre i modelli di diffusione raggiungono un limite di performance superiore, suggerendo che un ordinamento sequenziale rigido possa limitare i limiti superiori della qualità di generazione. Infine, estendiamo la nostra analisi adattando l'Allineamento della Rappresentazione (REPA) ai modelli AR, ottenendo LlamaGen-REPA. Il codice è disponibile all'indirizzo https://github.com/Tencent-Hunyuan/iFSQ.

English

The field of image generation is currently bifurcated into autoregressive (AR) models operating on discrete tokens and diffusion models utilizing continuous latents. This divide, rooted in the distinction between VQ-VAEs and VAEs, hinders unified modeling and fair benchmarking. Finite Scalar Quantization (FSQ) offers a theoretical bridge, yet vanilla FSQ suffers from a critical flaw: its equal-interval quantization can cause activation collapse. This mismatch forces a trade-off between reconstruction fidelity and information efficiency. In this work, we resolve this dilemma by simply replacing the activation function in original FSQ with a distribution-matching mapping to enforce a uniform prior. Termed iFSQ, this simple strategy requires just one line of code yet mathematically guarantees both optimal bin utilization and reconstruction precision. Leveraging iFSQ as a controlled benchmark, we uncover two key insights: (1) The optimal equilibrium between discrete and continuous representations lies at approximately 4 bits per dimension. (2) Under identical reconstruction constraints, AR models exhibit rapid initial convergence, whereas diffusion models achieve a superior performance ceiling, suggesting that strict sequential ordering may limit the upper bounds of generation quality. Finally, we extend our analysis by adapting Representation Alignment (REPA) to AR models, yielding LlamaGen-REPA. Codes is available at https://github.com/Tencent-Hunyuan/iFSQ

iFSQ: Migliorare FSQ per la generazione di immagini con 1 riga di codice

iFSQ: Improving FSQ for Image Generation with 1 Line of Code

Abstract

Support