DetailFlow: Generazione Autoregressiva di Immagini da Grossolana a Fine 1D tramite Predizione del Prossimo Dettaglio
DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction
May 27, 2025
Autori: Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu
cs.AI
Abstract
Questo articolo presenta DetailFlow, un metodo di generazione di immagini autoregressivo (AR) 1D da grossolano a fine che modella le immagini attraverso una nuova strategia di predizione del dettaglio successivo. Apprendendo una sequenza di token consapevole della risoluzione supervisionata con immagini progressivamente degradate, DetailFlow consente al processo di generazione di partire dalla struttura globale e di affinare gradualmente i dettagli. Questa sequenza di token 1D da grossolano a fine si allinea bene con il meccanismo di inferenza autoregressiva, fornendo un modo più naturale ed efficiente per il modello AR di generare contenuti visivi complessi. Il nostro modello AR 1D compatto raggiunge una sintesi di immagini di alta qualità con un numero significativamente inferiore di token rispetto agli approcci precedenti, come VAR/VQGAN. Proponiamo inoltre un meccanismo di inferenza parallela con autocorrezione che accelera la velocità di generazione di circa 8 volte, riducendo al contempo l'errore di campionamento accumulato intrinseco nella supervisione teacher-forcing. Sul benchmark ImageNet 256x256, il nostro metodo raggiunge un gFID di 2.96 con 128 token, superando VAR (3.3 FID) e FlexVAR (3.05 FID), che richiedono entrambi 680 token nei loro modelli AR. Inoltre, grazie al numero significativamente ridotto di token e al meccanismo di inferenza parallela, il nostro metodo esegue l'inferenza quasi 2 volte più velocemente rispetto a VAR e FlexVAR. I risultati sperimentali estesi dimostrano la qualità e l'efficienza di generazione superiori di DetailFlow rispetto ai metodi all'avanguardia esistenti.
English
This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image
generation method that models images through a novel next-detail prediction
strategy. By learning a resolution-aware token sequence supervised with
progressively degraded images, DetailFlow enables the generation process to
start from the global structure and incrementally refine details. This
coarse-to-fine 1D token sequence aligns well with the autoregressive inference
mechanism, providing a more natural and efficient way for the AR model to
generate complex visual content. Our compact 1D AR model achieves high-quality
image synthesis with significantly fewer tokens than previous approaches, i.e.
VAR/VQGAN. We further propose a parallel inference mechanism with
self-correction that accelerates generation speed by approximately 8x while
reducing accumulation sampling error inherent in teacher-forcing supervision.
On the ImageNet 256x256 benchmark, our method achieves 2.96 gFID with 128
tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require
680 tokens in their AR models. Moreover, due to the significantly reduced token
count and parallel inference mechanism, our method runs nearly 2x faster
inference speed compared to VAR and FlexVAR. Extensive experimental results
demonstrate DetailFlow's superior generation quality and efficiency compared to
existing state-of-the-art methods.