DetailFlow: Generación Autoregresiva de Imágenes de 1D de Grueso a Fino mediante Predicción del Siguiente Detalle

Resumen

Este artículo presenta DetailFlow, un método de generación de imágenes autoregresivo (AR) unidimensional de grueso a fino que modela imágenes mediante una novedosa estrategia de predicción de detalles sucesivos. Al aprender una secuencia de tokens consciente de la resolución supervisada con imágenes progresivamente degradadas, DetailFlow permite que el proceso de generación comience desde la estructura global y refine incrementalmente los detalles. Esta secuencia de tokens unidimensional de grueso a fino se alinea bien con el mecanismo de inferencia autoregresivo, proporcionando una forma más natural y eficiente para que el modelo AR genere contenido visual complejo. Nuestro modelo AR unidimensional compacto logra una síntesis de imágenes de alta calidad con significativamente menos tokens que enfoques anteriores, como VAR/VQGAN. Además, proponemos un mecanismo de inferencia paralela con autocorrección que acelera la velocidad de generación aproximadamente 8 veces mientras reduce el error de muestreo acumulativo inherente a la supervisión de forzamiento del profesor. En el benchmark ImageNet 256x256, nuestro método alcanza un gFID de 2.96 con 128 tokens, superando a VAR (3.3 FID) y FlexVAR (3.05 FID), que requieren 680 tokens en sus modelos AR. Además, debido al número significativamente reducido de tokens y al mecanismo de inferencia paralela, nuestro método ejecuta la inferencia casi 2 veces más rápido en comparación con VAR y FlexVAR. Los extensos resultados experimentales demuestran la calidad y eficiencia superior de DetailFlow en la generación en comparación con los métodos más avanzados existentes.

English

This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image generation method that models images through a novel next-detail prediction strategy. By learning a resolution-aware token sequence supervised with progressively degraded images, DetailFlow enables the generation process to start from the global structure and incrementally refine details. This coarse-to-fine 1D token sequence aligns well with the autoregressive inference mechanism, providing a more natural and efficient way for the AR model to generate complex visual content. Our compact 1D AR model achieves high-quality image synthesis with significantly fewer tokens than previous approaches, i.e. VAR/VQGAN. We further propose a parallel inference mechanism with self-correction that accelerates generation speed by approximately 8x while reducing accumulation sampling error inherent in teacher-forcing supervision. On the ImageNet 256x256 benchmark, our method achieves 2.96 gFID with 128 tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require 680 tokens in their AR models. Moreover, due to the significantly reduced token count and parallel inference mechanism, our method runs nearly 2x faster inference speed compared to VAR and FlexVAR. Extensive experimental results demonstrate DetailFlow's superior generation quality and efficiency compared to existing state-of-the-art methods.

DetailFlow: Generación Autoregresiva de Imágenes de 1D de Grueso a Fino mediante Predicción del Siguiente Detalle

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

Resumen

Support