iFSQ: Melhorando o FSQ para Geração de Imagens com 1 Linha de Código

Resumo

O campo de geração de imagens está atualmente dividido entre modelos autorregressivos (AR) que operam em *tokens* discretos e modelos de difusão que utilizam latentes contínuos. Esta divisão, enraizada na distinção entre VQ-VAEs e VAEs, dificulta a modelação unificada e a comparação rigorosa de desempenho (*benchmarking*). A Quantização Escalar Finita (FSQ) oferece uma ponte teórica, no entanto, a FSQ padrão sofre de uma falha crítica: a sua quantização de intervalos iguais pode causar colapso de ativações. Este desajuste força um compromisso entre a fidelidade de reconstrução e a eficiência informacional. Neste trabalho, resolvemos este dilema simplesmente substituindo a função de ativação na FSQ original por um mapeamento de correspondência de distribuição para impor um *prior* uniforme. Denominada iFSQ, esta estratégia simples requer apenas uma linha de código, mas garante matematicamente tanto a utilização ideal dos *bins* quanto a precisão de reconstrução. Utilizando a iFSQ como um benchmark controlado, descobrimos dois *insights* fundamentais: (1) O equilíbrio ideal entre representações discretas e contínuas situa-se em aproximadamente 4 bits por dimensão. (2) Sob restrições de reconstrução idênticas, os modelos AR exibem convergência inicial rápida, enquanto os modelos de difusão alcançam um limite de desempenho superior, sugerindo que a ordenação sequencial estrita pode limitar os limites superiores da qualidade de geração. Por fim, estendemos a nossa análise adaptando o Alinhamento de Representação (REPA) a modelos AR, resultando no LlamaGen-REPA. O código está disponível em https://github.com/Tencent-Hunyuan/iFSQ.

English

The field of image generation is currently bifurcated into autoregressive (AR) models operating on discrete tokens and diffusion models utilizing continuous latents. This divide, rooted in the distinction between VQ-VAEs and VAEs, hinders unified modeling and fair benchmarking. Finite Scalar Quantization (FSQ) offers a theoretical bridge, yet vanilla FSQ suffers from a critical flaw: its equal-interval quantization can cause activation collapse. This mismatch forces a trade-off between reconstruction fidelity and information efficiency. In this work, we resolve this dilemma by simply replacing the activation function in original FSQ with a distribution-matching mapping to enforce a uniform prior. Termed iFSQ, this simple strategy requires just one line of code yet mathematically guarantees both optimal bin utilization and reconstruction precision. Leveraging iFSQ as a controlled benchmark, we uncover two key insights: (1) The optimal equilibrium between discrete and continuous representations lies at approximately 4 bits per dimension. (2) Under identical reconstruction constraints, AR models exhibit rapid initial convergence, whereas diffusion models achieve a superior performance ceiling, suggesting that strict sequential ordering may limit the upper bounds of generation quality. Finally, we extend our analysis by adapting Representation Alignment (REPA) to AR models, yielding LlamaGen-REPA. Codes is available at https://github.com/Tencent-Hunyuan/iFSQ

iFSQ: Melhorando o FSQ para Geração de Imagens com 1 Linha de Código

iFSQ: Improving FSQ for Image Generation with 1 Line of Code

Resumo

Support