DetailFlow: 1D Coarse-to-Fine Autoregressieve Beeldgeneratie via Volgende-Detail Voorspelling
DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction
May 27, 2025
Auteurs: Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu
cs.AI
Samenvatting
Dit artikel presenteert DetailFlow, een grof-naar-fijn 1D autoregressieve (AR) beeldgeneratiemethode die beelden modelleert via een nieuwe next-detail voorspellingsstrategie. Door een resolutiebewuste tokensequentie te leren die wordt gesuperviseerd met progressief gedegradeerde beelden, maakt DetailFlow het mogelijk dat het generatieproces start vanuit de globale structuur en geleidelijk details verfijnt. Deze grof-naar-fijn 1D tokensequentie sluit goed aan bij het autoregressieve inferentiemechanisme, wat een natuurlijkere en efficiëntere manier biedt voor het AR-model om complexe visuele inhoud te genereren. Ons compacte 1D AR-model bereikt hoogwaardige beeldsynthese met aanzienlijk minder tokens dan eerdere benaderingen, zoals VAR/VQGAN. We stellen verder een parallel inferentiemechanisme voor met zelfcorrectie dat de generatiesnelheid met ongeveer 8x versnelt, terwijl het de accumulatiesamplingerreur vermindert die inherent is aan teacher-forcing supervisie. Op de ImageNet 256x256 benchmark bereikt onze methode een gFID van 2.96 met 128 tokens, wat beter presteert dan VAR (3.3 FID) en FlexVAR (3.05 FID), die beide 680 tokens nodig hebben in hun AR-modellen. Bovendien, dankzij het aanzienlijk verminderde aantal tokens en het parallelle inferentiemechanisme, loopt onze methode bijna 2x sneller in inferentiesnelheid vergeleken met VAR en FlexVAR. Uitgebreide experimentele resultaten tonen de superieure generatiekwaliteit en efficiëntie van DetailFlow aan in vergelijking met bestaande state-of-the-art methoden.
English
This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image
generation method that models images through a novel next-detail prediction
strategy. By learning a resolution-aware token sequence supervised with
progressively degraded images, DetailFlow enables the generation process to
start from the global structure and incrementally refine details. This
coarse-to-fine 1D token sequence aligns well with the autoregressive inference
mechanism, providing a more natural and efficient way for the AR model to
generate complex visual content. Our compact 1D AR model achieves high-quality
image synthesis with significantly fewer tokens than previous approaches, i.e.
VAR/VQGAN. We further propose a parallel inference mechanism with
self-correction that accelerates generation speed by approximately 8x while
reducing accumulation sampling error inherent in teacher-forcing supervision.
On the ImageNet 256x256 benchmark, our method achieves 2.96 gFID with 128
tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require
680 tokens in their AR models. Moreover, due to the significantly reduced token
count and parallel inference mechanism, our method runs nearly 2x faster
inference speed compared to VAR and FlexVAR. Extensive experimental results
demonstrate DetailFlow's superior generation quality and efficiency compared to
existing state-of-the-art methods.