ChatPaper.aiChatPaper

DetailFlow: 1D Grob-zu-Fein Autoregressive Bildgenerierung durch Nächste-Detail-Vorhersage

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

May 27, 2025
Autoren: Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu
cs.AI

Zusammenfassung

Dieses Papier stellt DetailFlow vor, eine grob-zu-fein 1D autoregressive (AR) Bildgenerierungsmethode, die Bilder durch eine neuartige Next-Detail-Vorhersagestrategie modelliert. Durch das Lernen einer auflösungsbewussten Token-Sequenz, die mit progressiv degradierten Bildern überwacht wird, ermöglicht DetailFlow den Generierungsprozess, von der globalen Struktur auszugehen und Details schrittweise zu verfeinern. Diese grob-zu-fein 1D Token-Sequenz passt gut zum autoregressiven Inferenzmechanismus und bietet eine natürlichere und effizientere Möglichkeit für das AR-Modell, komplexe visuelle Inhalte zu generieren. Unser kompaktes 1D AR-Modell erreicht eine hochwertige Bildsynthese mit deutlich weniger Token als bisherige Ansätze, z.B. VAR/VQGAN. Wir schlagen weiterhin einen parallelen Inferenzmechanismus mit Selbstkorrektur vor, der die Generierungsgeschwindigkeit um etwa das 8-fache beschleunigt und dabei den akkumulierten Sampling-Fehler, der der Teacher-Forcing-Überwachung innewohnt, reduziert. Auf dem ImageNet 256x256 Benchmark erreicht unsere Methode einen gFID von 2,96 mit 128 Token und übertrifft damit VAR (3,3 FID) und FlexVAR (3,05 FID), die beide 680 Token in ihren AR-Modellen benötigen. Darüber hinaus läuft unsere Methode aufgrund der deutlich reduzierten Tokenanzahl und des parallelen Inferenzmechanismus mit nahezu doppelter Inferenzgeschwindigkeit im Vergleich zu VAR und FlexVAR. Umfangreiche experimentelle Ergebnisse demonstrieren die überlegene Generierungsqualität und Effizienz von DetailFlow im Vergleich zu bestehenden State-of-the-Art-Methoden.
English
This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image generation method that models images through a novel next-detail prediction strategy. By learning a resolution-aware token sequence supervised with progressively degraded images, DetailFlow enables the generation process to start from the global structure and incrementally refine details. This coarse-to-fine 1D token sequence aligns well with the autoregressive inference mechanism, providing a more natural and efficient way for the AR model to generate complex visual content. Our compact 1D AR model achieves high-quality image synthesis with significantly fewer tokens than previous approaches, i.e. VAR/VQGAN. We further propose a parallel inference mechanism with self-correction that accelerates generation speed by approximately 8x while reducing accumulation sampling error inherent in teacher-forcing supervision. On the ImageNet 256x256 benchmark, our method achieves 2.96 gFID with 128 tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require 680 tokens in their AR models. Moreover, due to the significantly reduced token count and parallel inference mechanism, our method runs nearly 2x faster inference speed compared to VAR and FlexVAR. Extensive experimental results demonstrate DetailFlow's superior generation quality and efficiency compared to existing state-of-the-art methods.

Summary

AI-Generated Summary

PDF132May 28, 2025