iFSQ: Mejorando FSQ para Generación de Imágenes con 1 Línea de Código
iFSQ: Improving FSQ for Image Generation with 1 Line of Code
January 23, 2026
Autores: Bin Lin, Zongjian Li, Yuwei Niu, Kaixiong Gong, Yunyang Ge, Yunlong Lin, Mingzhe Zheng, JianWei Zhang, Miles Yang, Zhao Zhong, Liefeng Bo, Li Yuan
cs.AI
Resumen
El campo de la generación de imágenes se encuentra actualmente bifurcado en modelos autorregresivos (AR) que operan sobre *tokens* discretos y modelos de difusión que utilizan espacios latentes continuos. Esta división, arraigada en la distinción entre VQ-VAEs y VAEs, dificulta la modelización unificada y la evaluación comparativa justa. La Cuantificación Escalar Finita (FSQ) ofrece un puente teórico, aunque la FSQ estándar adolece de un defecto crítico: su cuantificación de intervalos iguales puede provocar un colapso de las activaciones. Este desajuste obliga a una disyuntiva entre la fidelidad de reconstrucción y la eficiencia informativa. En este trabajo, resolvemos este dilema simplemente reemplazando la función de activación en la FSQ original por un mapeo de ajuste de distribución para imponer una distribución previa uniforme. Denominada iFSQ, esta estrategia sencilla requiere solo una línea de código y, sin embargo, garantiza matemáticamente tanto una utilización óptima de los intervalos de cuantificación como una precisión de reconstrucción superior. Utilizando iFSQ como punto de referencia controlado, descubrimos dos hallazgos clave: (1) El equilibrio óptimo entre representaciones discretas y continuas se sitúa en aproximadamente 4 bits por dimensión. (2) Bajo idénticas restricciones de reconstrucción, los modelos AR exhiben una convergencia inicial rápida, mientras que los modelos de difusión alcanzan un límite de rendimiento superior, lo que sugiere que el ordenamiento secuencial estricto puede limitar los límites superiores de la calidad de generación. Finalmente, extendemos nuestro análisis adaptando el Alineamiento de Representaciones (REPA) a modelos AR, dando lugar a LlamaGen-REPA. El código está disponible en https://github.com/Tencent-Hunyuan/iFSQ.
English
The field of image generation is currently bifurcated into autoregressive (AR) models operating on discrete tokens and diffusion models utilizing continuous latents. This divide, rooted in the distinction between VQ-VAEs and VAEs, hinders unified modeling and fair benchmarking. Finite Scalar Quantization (FSQ) offers a theoretical bridge, yet vanilla FSQ suffers from a critical flaw: its equal-interval quantization can cause activation collapse. This mismatch forces a trade-off between reconstruction fidelity and information efficiency. In this work, we resolve this dilemma by simply replacing the activation function in original FSQ with a distribution-matching mapping to enforce a uniform prior. Termed iFSQ, this simple strategy requires just one line of code yet mathematically guarantees both optimal bin utilization and reconstruction precision. Leveraging iFSQ as a controlled benchmark, we uncover two key insights: (1) The optimal equilibrium between discrete and continuous representations lies at approximately 4 bits per dimension. (2) Under identical reconstruction constraints, AR models exhibit rapid initial convergence, whereas diffusion models achieve a superior performance ceiling, suggesting that strict sequential ordering may limit the upper bounds of generation quality. Finally, we extend our analysis by adapting Representation Alignment (REPA) to AR models, yielding LlamaGen-REPA. Codes is available at https://github.com/Tencent-Hunyuan/iFSQ