DetailFlow : Génération d'images autorégressive 1D du grossier au fin via la prédiction du détail suivant
DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction
May 27, 2025
Auteurs: Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu
cs.AI
Résumé
Cet article présente DetailFlow, une méthode de génération d'images autoregressive (AR) 1D allant du grossier au fin, qui modélise les images grâce à une nouvelle stratégie de prédiction des détails suivants. En apprenant une séquence de tokens sensible à la résolution supervisée par des images progressivement dégradées, DetailFlow permet au processus de génération de commencer par la structure globale et d'affiner progressivement les détails. Cette séquence de tokens 1D allant du grossier au fin s'aligne bien avec le mécanisme d'inférence autoregressive, offrant une manière plus naturelle et efficace pour le modèle AR de générer du contenu visuel complexe. Notre modèle AR 1D compact réalise une synthèse d'images de haute qualité avec un nombre de tokens significativement réduit par rapport aux approches précédentes, telles que VAR/VQGAN. Nous proposons en outre un mécanisme d'inférence parallèle avec auto-correction qui accélère la vitesse de génération d'environ 8x tout en réduisant l'erreur d'échantillonnage accumulée inhérente à la supervision par forçage enseignant. Sur le benchmark ImageNet 256x256, notre méthode atteint un gFID de 2,96 avec 128 tokens, surpassant VAR (3,3 FID) et FlexVAR (3,05 FID), qui nécessitent tous deux 680 tokens dans leurs modèles AR. De plus, grâce au nombre de tokens significativement réduit et au mécanisme d'inférence parallèle, notre méthode fonctionne avec une vitesse d'inférence presque 2x plus rapide que VAR et FlexVAR. Les résultats expérimentaux approfondis démontrent la qualité et l'efficacité supérieures de DetailFlow par rapport aux méthodes existantes de pointe.
English
This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image
generation method that models images through a novel next-detail prediction
strategy. By learning a resolution-aware token sequence supervised with
progressively degraded images, DetailFlow enables the generation process to
start from the global structure and incrementally refine details. This
coarse-to-fine 1D token sequence aligns well with the autoregressive inference
mechanism, providing a more natural and efficient way for the AR model to
generate complex visual content. Our compact 1D AR model achieves high-quality
image synthesis with significantly fewer tokens than previous approaches, i.e.
VAR/VQGAN. We further propose a parallel inference mechanism with
self-correction that accelerates generation speed by approximately 8x while
reducing accumulation sampling error inherent in teacher-forcing supervision.
On the ImageNet 256x256 benchmark, our method achieves 2.96 gFID with 128
tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require
680 tokens in their AR models. Moreover, due to the significantly reduced token
count and parallel inference mechanism, our method runs nearly 2x faster
inference speed compared to VAR and FlexVAR. Extensive experimental results
demonstrate DetailFlow's superior generation quality and efficiency compared to
existing state-of-the-art methods.Summary
AI-Generated Summary