ChatPaper.aiChatPaper

DetailFlow: Одномерная генерация изображений от грубого к детальному с авторегрессией через предсказание следующей детали

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

May 27, 2025
Авторы: Yiheng Liu, Liao Qu, Huichao Zhang, Xu Wang, Yi Jiang, Yiming Gao, Hu Ye, Xian Li, Shuai Wang, Daniel K. Du, Shu Cheng, Zehuan Yuan, Xinglong Wu
cs.AI

Аннотация

В данной статье представлен DetailFlow, метод генерации изображений с использованием грубо-тонкой одномерной авторегрессии (AR), который моделирует изображения через новую стратегию предсказания следующих деталей. Обучая последовательность токенов, учитывающую разрешение, на основе постепенно ухудшающихся изображений, DetailFlow позволяет процессу генерации начинаться с глобальной структуры и постепенно уточнять детали. Эта грубо-тонкая одномерная последовательность токенов хорошо согласуется с механизмом авторегрессивного вывода, предоставляя более естественный и эффективный способ для AR-модели генерировать сложный визуальный контент. Наша компактная одномерная AR-модель достигает высококачественного синтеза изображений с значительно меньшим количеством токенов по сравнению с предыдущими подходами, такими как VAR/VQGAN. Мы также предлагаем механизм параллельного вывода с самокоррекцией, который ускоряет процесс генерации примерно в 8 раз, одновременно уменьшая накопление ошибок выборки, присущих обучению с учителем. На тестовом наборе данных ImageNet 256x256 наш метод достигает значения 2.96 gFID при использовании 128 токенов, превосходя VAR (3.3 FID) и FlexVAR (3.05 FID), которые требуют 680 токенов в своих AR-моделях. Более того, благодаря значительно уменьшенному количеству токенов и механизму параллельного вывода, наш метод работает почти в 2 раза быстрее по сравнению с VAR и FlexVAR. Обширные экспериментальные результаты демонстрируют превосходное качество генерации и эффективность DetailFlow по сравнению с современными методами.
English
This paper presents DetailFlow, a coarse-to-fine 1D autoregressive (AR) image generation method that models images through a novel next-detail prediction strategy. By learning a resolution-aware token sequence supervised with progressively degraded images, DetailFlow enables the generation process to start from the global structure and incrementally refine details. This coarse-to-fine 1D token sequence aligns well with the autoregressive inference mechanism, providing a more natural and efficient way for the AR model to generate complex visual content. Our compact 1D AR model achieves high-quality image synthesis with significantly fewer tokens than previous approaches, i.e. VAR/VQGAN. We further propose a parallel inference mechanism with self-correction that accelerates generation speed by approximately 8x while reducing accumulation sampling error inherent in teacher-forcing supervision. On the ImageNet 256x256 benchmark, our method achieves 2.96 gFID with 128 tokens, outperforming VAR (3.3 FID) and FlexVAR (3.05 FID), which both require 680 tokens in their AR models. Moreover, due to the significantly reduced token count and parallel inference mechanism, our method runs nearly 2x faster inference speed compared to VAR and FlexVAR. Extensive experimental results demonstrate DetailFlow's superior generation quality and efficiency compared to existing state-of-the-art methods.

Summary

AI-Generated Summary

PDF132May 28, 2025