Redes de Refinamiento Generativo para Síntesis Visual

Resumen

Si bien los modelos de difusión dominan el campo de la generación visual, son computacionalmente ineficientes, aplicando un esfuerzo computacional uniforme independientemente de la complejidad. Por el contrario, los modelos autorregresivos (AR) son inherentemente conscientes de la complejidad, como lo demuestran sus verosimilitudes variables, pero a menudo se ven obstaculizados por una tokenización discreta con pérdidas y una acumulación de errores. En este trabajo, presentamos las Redes de Refinamiento Generativo (GRN), un paradigma de síntesis visual de próxima generación para abordar estos problemas. En esencia, GRN aborda el cuello de botella de la tokenización discreta mediante una Cuantización Binaria Jerárquica (HBQ) teóricamente casi sin pérdidas, logrando una calidad de reconstrucción comparable a las contrapartes continuas. Construido sobre el espacio latente de HBQ, GRN mejora fundamentalmente la generación AR con un mecanismo de refinamiento global que perfecciona y corrige progresivamente las obras de arte, como un artista humano pintando. Además, GRN integra una estrategia de muestreo guiada por entropía, permitiendo una generación adaptativa de pasos y consciente de la complejidad sin comprometer la calidad visual. En el benchmark de ImageNet, GRN establece nuevos récords en reconstrucción de imágenes (0.56 rFID) y generación de imágenes condicionadas por clase (1.81 gFID). También escalamos GRN a tareas más desafiantes como generación de texto a imagen y texto a video, logrando un rendimiento superior en una escala equivalente. Liberamos todos los modelos y código para fomentar más investigación sobre GRN.

English

While diffusion models dominate the field of visual generation, they are computationally inefficient, applying a uniform computational effort regardless of different complexity. In contrast, autoregressive (AR) models are inherently complexity-aware, as evidenced by their variable likelihoods, but are often hindered by lossy discrete tokenization and error accumulation. In this work, we introduce Generative Refinement Networks (GRN), a next-generation visual synthesis paradigm to address these issues. At its core, GRN addresses the discrete tokenization bottleneck through a theoretically near-lossless Hierarchical Binary Quantization (HBQ), achieving a reconstruction quality comparable to continuous counterparts. Built upon HBQ's latent space, GRN fundamentally upgrades AR generation with a global refinement mechanism that progressively perfects and corrects artworks -- like a human artist painting. Besides, GRN integrates an entropy-guided sampling strategy, enabling complexity-aware, adaptive-step generation without compromising visual quality. On the ImageNet benchmark, GRN establishes new records in image reconstruction (0.56 rFID) and class-conditional image generation (1.81 gFID). We also scale GRN to more challenging text-to-image and text-to-video generation, delivering superior performance on an equivalent scale. We release all models and code to foster further research on GRN.

Redes de Refinamiento Generativo para Síntesis Visual

Generative Refinement Networks for Visual Synthesis

Resumen

Support