生成的リファインメントネットワークによる視覚的合成
Generative Refinement Networks for Visual Synthesis
April 14, 2026
著者: Jian Han, Jinlai Liu, Jiahuan Wang, Bingyue Peng, Zehuan Yuan
cs.AI
要旨
拡散モデルが視覚生成の分野を支配している一方で、それらは計算効率が悪く、複雑さの違いに関わらず均一な計算リソースを適用する。対照的に、自己回帰(AR)モデルは、可変の尤度が証明するように、本質的に複雑度を認識するが、非可逆的な離散トークン化と誤差蓄積に妨げられることが多い。本研究では、これらの問題を解決する次世代視覚合成パラダイムとして、Generative Refinement Networks(GRN)を提案する。GRNの中核は、理論的にほぼ非可逆な階層的二値量子化(HBQ)を通じて離散トークン化のボトルネックに対処し、連続値モデルに匹敵する再構成品質を達成する点にある。HBQの潜在空間上に構築されたGRNは、人間の画家が描画するように、作品を段階的に完成させ修正する大域的精緻化メカニズムにより、AR生成を根本からアップグレードする。さらにGRNは、エントロピー誘導型サンプリング戦略を統合し、視覚品質を損なうことなく、複雑度を考慮した適応的ステップ生成を可能にする。ImageNetベンチマークにおいて、GRNは画像再構成(0.56 rFID)およびクラス条件付き画像生成(1.81 gFID)で新記録を樹立した。また、GRNをより挑戦的なテキストから画像へ、およびテキストから動画への生成にスケールアップし、同等規模で優れた性能を発揮する。GRNに関するさらなる研究の発展を促進するため、全てのモデルとコードを公開する。
English
While diffusion models dominate the field of visual generation, they are computationally inefficient, applying a uniform computational effort regardless of different complexity. In contrast, autoregressive (AR) models are inherently complexity-aware, as evidenced by their variable likelihoods, but are often hindered by lossy discrete tokenization and error accumulation. In this work, we introduce Generative Refinement Networks (GRN), a next-generation visual synthesis paradigm to address these issues. At its core, GRN addresses the discrete tokenization bottleneck through a theoretically near-lossless Hierarchical Binary Quantization (HBQ), achieving a reconstruction quality comparable to continuous counterparts. Built upon HBQ's latent space, GRN fundamentally upgrades AR generation with a global refinement mechanism that progressively perfects and corrects artworks -- like a human artist painting. Besides, GRN integrates an entropy-guided sampling strategy, enabling complexity-aware, adaptive-step generation without compromising visual quality. On the ImageNet benchmark, GRN establishes new records in image reconstruction (0.56 rFID) and class-conditional image generation (1.81 gFID). We also scale GRN to more challenging text-to-image and text-to-video generation, delivering superior performance on an equivalent scale. We release all models and code to foster further research on GRN.