ChatPaper.aiChatPaper

DetailFlow: Geração Autoregressiva de Imagens 1D de Grosso a Fino via Predição do Próximo Detalhe

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

May 27, 2025
Autores: Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu
cs.AI

Resumo

Este artigo apresenta o DetailFlow, um método de geração de imagens autoregressivo (AR) unidimensional (1D) de granularidade grossa para fina, que modela imagens por meio de uma nova estratégia de previsão de detalhes subsequentes. Ao aprender uma sequência de tokens sensível à resolução supervisionada com imagens progressivamente degradadas, o DetailFlow permite que o processo de geração comece a partir da estrutura global e refine incrementalmente os detalhes. Essa sequência de tokens 1D de granularidade grossa para fina se alinha bem com o mecanismo de inferência autoregressiva, proporcionando uma maneira mais natural e eficiente para o modelo AR gerar conteúdo visual complexo. Nosso modelo AR 1D compacto alcança síntese de imagens de alta qualidade com significativamente menos tokens do que abordagens anteriores, como VAR/VQGAN. Propomos ainda um mecanismo de inferência paralela com autocorreção que acelera a velocidade de geração em aproximadamente 8x, ao mesmo tempo que reduz o erro de amostragem acumulado inerente à supervisão por forçamento de professor. No benchmark ImageNet 256x256, nosso método alcança 2,96 gFID com 128 tokens, superando o VAR (3,3 FID) e o FlexVAR (3,05 FID), que exigem 680 tokens em seus modelos AR. Além disso, devido à redução significativa na contagem de tokens e ao mecanismo de inferência paralela, nosso método executa inferência quase 2x mais rápida em comparação com VAR e FlexVAR. Resultados experimentais extensivos demonstram a qualidade e eficiência superior de geração do DetailFlow em comparação com os métodos state-of-the-art existentes.
English
This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image generation method that models images through a novel next-detail prediction strategy. By learning a resolution-aware token sequence supervised with progressively degraded images, DetailFlow enables the generation process to start from the global structure and incrementally refine details. This coarse-to-fine 1D token sequence aligns well with the autoregressive inference mechanism, providing a more natural and efficient way for the AR model to generate complex visual content. Our compact 1D AR model achieves high-quality image synthesis with significantly fewer tokens than previous approaches, i.e. VAR/VQGAN. We further propose a parallel inference mechanism with self-correction that accelerates generation speed by approximately 8x while reducing accumulation sampling error inherent in teacher-forcing supervision. On the ImageNet 256x256 benchmark, our method achieves 2.96 gFID with 128 tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require 680 tokens in their AR models. Moreover, due to the significantly reduced token count and parallel inference mechanism, our method runs nearly 2x faster inference speed compared to VAR and FlexVAR. Extensive experimental results demonstrate DetailFlow's superior generation quality and efficiency compared to existing state-of-the-art methods.
PDF162December 4, 2025