DetailFlow: Generación Autoregresiva de Imágenes de 1D de Grueso a Fino mediante Predicción del Siguiente Detalle
DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction
May 27, 2025
Autores: Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu
cs.AI
Resumen
Este artículo presenta DetailFlow, un método de generación de imágenes autoregresivo (AR) unidimensional de grueso a fino que modela imágenes mediante una novedosa estrategia de predicción de detalles sucesivos. Al aprender una secuencia de tokens consciente de la resolución supervisada con imágenes progresivamente degradadas, DetailFlow permite que el proceso de generación comience desde la estructura global y refine incrementalmente los detalles. Esta secuencia de tokens unidimensional de grueso a fino se alinea bien con el mecanismo de inferencia autoregresivo, proporcionando una forma más natural y eficiente para que el modelo AR genere contenido visual complejo. Nuestro modelo AR unidimensional compacto logra una síntesis de imágenes de alta calidad con significativamente menos tokens que enfoques anteriores, como VAR/VQGAN. Además, proponemos un mecanismo de inferencia paralela con autocorrección que acelera la velocidad de generación aproximadamente 8 veces mientras reduce el error de muestreo acumulativo inherente a la supervisión de forzamiento del profesor. En el benchmark ImageNet 256x256, nuestro método alcanza un gFID de 2.96 con 128 tokens, superando a VAR (3.3 FID) y FlexVAR (3.05 FID), que requieren 680 tokens en sus modelos AR. Además, debido al número significativamente reducido de tokens y al mecanismo de inferencia paralela, nuestro método ejecuta la inferencia casi 2 veces más rápido en comparación con VAR y FlexVAR. Los extensos resultados experimentales demuestran la calidad y eficiencia superior de DetailFlow en la generación en comparación con los métodos más avanzados existentes.
English
This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image
generation method that models images through a novel next-detail prediction
strategy. By learning a resolution-aware token sequence supervised with
progressively degraded images, DetailFlow enables the generation process to
start from the global structure and incrementally refine details. This
coarse-to-fine 1D token sequence aligns well with the autoregressive inference
mechanism, providing a more natural and efficient way for the AR model to
generate complex visual content. Our compact 1D AR model achieves high-quality
image synthesis with significantly fewer tokens than previous approaches, i.e.
VAR/VQGAN. We further propose a parallel inference mechanism with
self-correction that accelerates generation speed by approximately 8x while
reducing accumulation sampling error inherent in teacher-forcing supervision.
On the ImageNet 256x256 benchmark, our method achieves 2.96 gFID with 128
tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require
680 tokens in their AR models. Moreover, due to the significantly reduced token
count and parallel inference mechanism, our method runs nearly 2x faster
inference speed compared to VAR and FlexVAR. Extensive experimental results
demonstrate DetailFlow's superior generation quality and efficiency compared to
existing state-of-the-art methods.Summary
AI-Generated Summary