iFSQ: 1줄의 코드로 이미지 생성을 위한 FSQ 개선하기
iFSQ: Improving FSQ for Image Generation with 1 Line of Code
January 23, 2026
저자: Bin Lin, Zongjian Li, Yuwei Niu, Kaixiong Gong, Yunyang Ge, Yunlong Lin, Mingzhe Zheng, JianWei Zhang, Miles Yang, Zhao Zhong, Liefeng Bo, Li Yuan
cs.AI
초록
이미지 생성 분야는 현재 이산 토큰을 활용하는 자기회귀(AR) 모델과 연속 잠재 변수를 활용하는 확산 모델로 양분되어 있습니다. VQ-VAE와 VAE의 차이에서 비롯된 이러한 분리는 통합 모델링과 공정한 벤치마킹을 저해합니다. 유한 스칼라 양자화(FSQ)는 이론적 가교 역할을 하지만, 기본 FSQ는 동일 간격 양자화로 인한 활성화 붕괴라는 치명적 결함을 지닙니다. 이러한 불일치는 복원 충실도와 정보 효율성 사이의 트레이드오프를 강요합니다. 본 연구에서는 기존 FSQ의 활성화 함수를 균일 사전 분포를 강제하는 분포 정렬 매핑으로 간단히 대체하여 이 딜레마를 해결합니다. iFSQ로 명명된 이 단순한 전략은 단 한 줄의 코드 변경만으로도 수학적으로 최적의 빈 활용도와 복원 정밀도를 동시에 보장합니다. iFSQ를 통제된 벤치마크로 활용하여 두 가지 핵심 통찰을 도출했습니다: (1) 이산 표현과 연속 표현 사이의 최적 균형점은 차원당 약 4비트에 위치합니다. (2) 동일한 복원 제약 조건 하에서 AR 모델은 초기 수렴 속도가 빠른 반면, 확산 모델은 더 높은 성능 한계에 도달하며, 이는 엄격한 순차적 배열이 생성 품질의 상한을 제한할 수 있음을 시사합니다. 마지막으로 표현 정렬(REPA)을 AR 모델에 적용하여 LlamaGen-REPA를 개발함으로써 분석을 확장했습니다. 코드는 https://github.com/Tencent-Hunyuan/iFSQ에서 확인할 수 있습니다.
English
The field of image generation is currently bifurcated into autoregressive (AR) models operating on discrete tokens and diffusion models utilizing continuous latents. This divide, rooted in the distinction between VQ-VAEs and VAEs, hinders unified modeling and fair benchmarking. Finite Scalar Quantization (FSQ) offers a theoretical bridge, yet vanilla FSQ suffers from a critical flaw: its equal-interval quantization can cause activation collapse. This mismatch forces a trade-off between reconstruction fidelity and information efficiency. In this work, we resolve this dilemma by simply replacing the activation function in original FSQ with a distribution-matching mapping to enforce a uniform prior. Termed iFSQ, this simple strategy requires just one line of code yet mathematically guarantees both optimal bin utilization and reconstruction precision. Leveraging iFSQ as a controlled benchmark, we uncover two key insights: (1) The optimal equilibrium between discrete and continuous representations lies at approximately 4 bits per dimension. (2) Under identical reconstruction constraints, AR models exhibit rapid initial convergence, whereas diffusion models achieve a superior performance ceiling, suggesting that strict sequential ordering may limit the upper bounds of generation quality. Finally, we extend our analysis by adapting Representation Alignment (REPA) to AR models, yielding LlamaGen-REPA. Codes is available at https://github.com/Tencent-Hunyuan/iFSQ