ChatPaper.aiChatPaper

iFSQ:画像生成のためのFSQを1行のコードで改善

iFSQ: Improving FSQ for Image Generation with 1 Line of Code

January 23, 2026
著者: Bin Lin, Zongjian Li, Yuwei Niu, Kaixiong Gong, Yunyang Ge, Yunlong Lin, Mingzhe Zheng, JianWei Zhang, Miles Yang, Zhao Zhong, Liefeng Bo, Li Yuan
cs.AI

要旨

画像生成の分野は現在、離散トークンに基づく自己回帰(AR)モデルと連続潜在変数を利用する拡散モデルに二分されている。この分断はVQ-VAEとVAEの区別に起因しており、統一的なモデリングと公平なベンチマーキングを妨げている。有限スカラー量子化(FSQ)は理論的な架け橋を提供するが、従来のFSQは重大な欠陥を有する:等間隔量子化が活性値の崩壊を引き起こす可能性がある。この不整合は再構成精度と情報効率の間のトレードオフを強いる。本研究では、元のFSQの活性化関数を分布マッチング写測に置き換えるだけでこのジレンマを解決する。この単純な戦略はiFSQと称され、わずか1行のコード変更で、数学的に最適なビン使用率と再構成精度の両方を保証する。iFSQを制御されたベンチマークとして活用し、二つの重要な知見を得た:(1)離散表現と連続表現の最適な均衡点は次元あたり約4ビットにある。(2)同一の再構成制約下では、ARモデルは初期収束が速いのに対し、拡散モデルは優れた性能上限に達し、厳密な順序付けが生成品質の上限を制限する可能性を示唆する。最後に、表現アライメント(REPA)をARモデルに適用して分析を拡張し、LlamaGen-REPAを実現した。コードはhttps://github.com/Tencent-Hunyuan/iFSQ で公開されている。
English
The field of image generation is currently bifurcated into autoregressive (AR) models operating on discrete tokens and diffusion models utilizing continuous latents. This divide, rooted in the distinction between VQ-VAEs and VAEs, hinders unified modeling and fair benchmarking. Finite Scalar Quantization (FSQ) offers a theoretical bridge, yet vanilla FSQ suffers from a critical flaw: its equal-interval quantization can cause activation collapse. This mismatch forces a trade-off between reconstruction fidelity and information efficiency. In this work, we resolve this dilemma by simply replacing the activation function in original FSQ with a distribution-matching mapping to enforce a uniform prior. Termed iFSQ, this simple strategy requires just one line of code yet mathematically guarantees both optimal bin utilization and reconstruction precision. Leveraging iFSQ as a controlled benchmark, we uncover two key insights: (1) The optimal equilibrium between discrete and continuous representations lies at approximately 4 bits per dimension. (2) Under identical reconstruction constraints, AR models exhibit rapid initial convergence, whereas diffusion models achieve a superior performance ceiling, suggesting that strict sequential ordering may limit the upper bounds of generation quality. Finally, we extend our analysis by adapting Representation Alignment (REPA) to AR models, yielding LlamaGen-REPA. Codes is available at https://github.com/Tencent-Hunyuan/iFSQ
PDF241January 28, 2026