Réseaux de Raffinement Génératifs pour la Synthèse Visuelle

Résumé

Alors que les modèles de diffusion dominent le domaine de la génération visuelle, ils sont informatiquement inefficaces, appliquant un effort computationnel uniforme indépendamment de la complexité. En revanche, les modèles autorégressifs (AR) sont intrinsèquement conscients de la complexité, comme en témoignent leurs vraisemblances variables, mais sont souvent entravés par une tokenisation discrète avec pertes et une accumulation d'erreurs. Dans ce travail, nous introduisons les Generative Refinement Networks (GRN), un paradigme de synthèse visuelle de nouvelle génération pour résoudre ces problèmes. Au cœur de GRN se trouve la résolution du goulot d'étranglement de la tokenisation discrète via une Quantisation Binaire Hiérarchique (HBQ) théoriquement quasi sans perte, atteignant une qualité de reconstruction comparable aux approches continues. Construit sur l'espace latent du HBQ, GRN améliore fondamentalement la génération AR avec un mécanisme de raffinement global qui perfectionne et corrige progressivement les œuvres – à la manière d'un artiste peignant. De plus, GRN intègre une stratégie d'échantillonnage guidée par l'entropie, permettant une génération adaptative, consciente de la complexité et à pas variables sans compromettre la qualité visuelle. Sur le benchmark ImageNet, GRN établit de nouveaux records en reconstruction d'image (0.56 rFID) et en génération d'image conditionnée par classe (1.81 gFID). Nous avons également mis à l'échelle GRN pour des tâches plus complexes comme la génération texte-image et texte-vidéo, obtenant des performances supérieures à échelle équivalente. Nous publions tous les modèles et le code pour favoriser les recherches futures sur GRN.

English

While diffusion models dominate the field of visual generation, they are computationally inefficient, applying a uniform computational effort regardless of different complexity. In contrast, autoregressive (AR) models are inherently complexity-aware, as evidenced by their variable likelihoods, but are often hindered by lossy discrete tokenization and error accumulation. In this work, we introduce Generative Refinement Networks (GRN), a next-generation visual synthesis paradigm to address these issues. At its core, GRN addresses the discrete tokenization bottleneck through a theoretically near-lossless Hierarchical Binary Quantization (HBQ), achieving a reconstruction quality comparable to continuous counterparts. Built upon HBQ's latent space, GRN fundamentally upgrades AR generation with a global refinement mechanism that progressively perfects and corrects artworks -- like a human artist painting. Besides, GRN integrates an entropy-guided sampling strategy, enabling complexity-aware, adaptive-step generation without compromising visual quality. On the ImageNet benchmark, GRN establishes new records in image reconstruction (0.56 rFID) and class-conditional image generation (1.81 gFID). We also scale GRN to more challenging text-to-image and text-to-video generation, delivering superior performance on an equivalent scale. We release all models and code to foster further research on GRN.

Réseaux de Raffinement Génératifs pour la Synthèse Visuelle

Generative Refinement Networks for Visual Synthesis

Résumé

Support