ChatPaper.aiChatPaper

DetailFlow: 다음 디테일 예측을 통한 1D 코스-투-파인 자기회귀 이미지 생성

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

May 27, 2025
저자: Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu
cs.AI

초록

본 논문은 새로운 다음 디테일 예측 전략을 통해 이미지를 모델링하는 coarse-to-fine 1D 자기회귀(AR) 이미지 생성 방법인 DetailFlow를 제안합니다. 점진적으로 저하된 이미지로 감독된 해상도 인식 토큰 시퀀스를 학습함으로써, DetailFlow는 전역 구조에서 시작하여 점진적으로 디테일을 정제하는 생성 과정을 가능하게 합니다. 이 coarse-to-fine 1D 토큰 시퀀스는 자기회귀 추론 메커니즘과 잘 부합하여, AR 모델이 복잡한 시각적 콘텐츠를 생성하는 데 더 자연스럽고 효율적인 방식을 제공합니다. 우리의 간결한 1D AR 모델은 이전 접근 방식(VAR/VQGAN)보다 훨씬 적은 토큰 수로도 고품질의 이미지 합성을 달성합니다. 또한, 우리는 자기 수정 기능을 갖춘 병렬 추론 메커니즘을 제안하여, 생성 속도를 약 8배 가속화하면서도 교사 강제 감독에서 발생하는 누적 샘플링 오류를 줄입니다. ImageNet 256x256 벤치마크에서, 우리의 방법은 128개의 토큰으로 2.96 gFID를 달성하여, 각각 680개의 토큰을 필요로 하는 VAR(3.3 FID)과 FlexVAR(3.05 FID)을 능가합니다. 또한, 크게 줄어든 토큰 수와 병렬 추론 메커니즘 덕분에, 우리의 방법은 VAR과 FlexVAR에 비해 거의 2배 빠른 추론 속도를 보입니다. 광범위한 실험 결과는 DetailFlow가 기존의 최신 방법들에 비해 뛰어난 생성 품질과 효율성을 보여줍니다.
English
This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image generation method that models images through a novel next-detail prediction strategy. By learning a resolution-aware token sequence supervised with progressively degraded images, DetailFlow enables the generation process to start from the global structure and incrementally refine details. This coarse-to-fine 1D token sequence aligns well with the autoregressive inference mechanism, providing a more natural and efficient way for the AR model to generate complex visual content. Our compact 1D AR model achieves high-quality image synthesis with significantly fewer tokens than previous approaches, i.e. VAR/VQGAN. We further propose a parallel inference mechanism with self-correction that accelerates generation speed by approximately 8x while reducing accumulation sampling error inherent in teacher-forcing supervision. On the ImageNet 256x256 benchmark, our method achieves 2.96 gFID with 128 tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require 680 tokens in their AR models. Moreover, due to the significantly reduced token count and parallel inference mechanism, our method runs nearly 2x faster inference speed compared to VAR and FlexVAR. Extensive experimental results demonstrate DetailFlow's superior generation quality and efficiency compared to existing state-of-the-art methods.

Summary

AI-Generated Summary

PDF132May 28, 2025