DetailFlow: Одномерная генерация изображений от грубого к детальному с авторегрессией через предсказание следующей детали
DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction
May 27, 2025
Авторы: Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu
cs.AI
Аннотация
В данной статье представлен DetailFlow, метод генерации изображений с использованием грубо-тонкой одномерной авторегрессии (AR), который моделирует изображения через новую стратегию предсказания следующих деталей. Обучая последовательность токенов, учитывающую разрешение, на основе постепенно ухудшающихся изображений, DetailFlow позволяет процессу генерации начинаться с глобальной структуры и постепенно уточнять детали. Эта грубо-тонкая одномерная последовательность токенов хорошо согласуется с механизмом авторегрессивного вывода, предоставляя более естественный и эффективный способ для AR-модели генерировать сложный визуальный контент. Наша компактная одномерная AR-модель достигает высококачественного синтеза изображений с значительно меньшим количеством токенов по сравнению с предыдущими подходами, такими как VAR/VQGAN. Мы также предлагаем механизм параллельного вывода с самокоррекцией, который ускоряет процесс генерации примерно в 8 раз, одновременно уменьшая накопление ошибок выборки, присущих обучению с учителем. На тестовом наборе данных ImageNet 256x256 наш метод достигает значения 2.96 gFID при использовании 128 токенов, превосходя VAR (3.3 FID) и FlexVAR (3.05 FID), которые требуют 680 токенов в своих AR-моделях. Более того, благодаря значительно уменьшенному количеству токенов и механизму параллельного вывода, наш метод работает почти в 2 раза быстрее по сравнению с VAR и FlexVAR. Обширные экспериментальные результаты демонстрируют превосходное качество генерации и эффективность DetailFlow по сравнению с современными методами.
English
This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image
generation method that models images through a novel next-detail prediction
strategy. By learning a resolution-aware token sequence supervised with
progressively degraded images, DetailFlow enables the generation process to
start from the global structure and incrementally refine details. This
coarse-to-fine 1D token sequence aligns well with the autoregressive inference
mechanism, providing a more natural and efficient way for the AR model to
generate complex visual content. Our compact 1D AR model achieves high-quality
image synthesis with significantly fewer tokens than previous approaches, i.e.
VAR/VQGAN. We further propose a parallel inference mechanism with
self-correction that accelerates generation speed by approximately 8x while
reducing accumulation sampling error inherent in teacher-forcing supervision.
On the ImageNet 256x256 benchmark, our method achieves 2.96 gFID with 128
tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require
680 tokens in their AR models. Moreover, due to the significantly reduced token
count and parallel inference mechanism, our method runs nearly 2x faster
inference speed compared to VAR and FlexVAR. Extensive experimental results
demonstrate DetailFlow's superior generation quality and efficiency compared to
existing state-of-the-art methods.Summary
AI-Generated Summary