Улучшение авторегрессионной генерации изображений с помощью предсказания токенов от грубого к детальному
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction
March 20, 2025
Авторы: Ziyao Guo, Kaipeng Zhang, Michael Qizhe Shieh
cs.AI
Аннотация
Авторегрессионные модели продемонстрировали впечатляющие успехи в генерации изображений, адаптируя методы последовательного предсказания из области языкового моделирования. Однако применение этих подходов к изображениям требует дискретизации непрерывных данных пикселей с помощью методов векторного квантования, таких как VQ-VAE. Чтобы уменьшить ошибки квантования, присутствующие в VQ-VAE, в последних работах склоняются к использованию более крупных кодовых книг. Однако это соответственно увеличивает размер словаря, усложняя задачу авторегрессионного моделирования. Данная работа направлена на поиск способа использовать преимущества больших кодовых книг, не усложняя при этом авторегрессионное моделирование. В ходе эмпирического исследования мы обнаружили, что токены с похожими представлениями кодовых слов оказывают схожее влияние на итоговое сгенерированное изображение, что выявляет значительную избыточность в больших кодовых книгах. Основываясь на этом наблюдении, мы предлагаем предсказывать токены от грубого к детальному (CTF), что реализуется путем присвоения одинаковых грубых меток для похожих токенов. Наша структура состоит из двух этапов: (1) авторегрессионной модели, которая последовательно предсказывает грубые метки для каждого токена в последовательности, и (2) вспомогательной модели, которая одновременно предсказывает детализированные метки для всех токенов, учитывая их грубые метки. Эксперименты на ImageNet демонстрируют превосходную производительность нашего метода, достигая среднего улучшения на 59 баллов по шкале Inception Score по сравнению с базовыми подходами. Примечательно, что, несмотря на добавление дополнительного шага вывода, наш метод обеспечивает более высокую скорость генерации.
English
Autoregressive models have shown remarkable success in image generation by
adapting sequential prediction techniques from language modeling. However,
applying these approaches to images requires discretizing continuous pixel data
through vector quantization methods like VQ-VAE. To alleviate the quantization
errors that existed in VQ-VAE, recent works tend to use larger codebooks.
However, this will accordingly expand vocabulary size, complicating the
autoregressive modeling task. This paper aims to find a way to enjoy the
benefits of large codebooks without making autoregressive modeling more
difficult. Through empirical investigation, we discover that tokens with
similar codeword representations produce similar effects on the final generated
image, revealing significant redundancy in large codebooks. Based on this
insight, we propose to predict tokens from coarse to fine (CTF), realized by
assigning the same coarse label for similar tokens. Our framework consists of
two stages: (1) an autoregressive model that sequentially predicts coarse
labels for each token in the sequence, and (2) an auxiliary model that
simultaneously predicts fine-grained labels for all tokens conditioned on their
coarse labels. Experiments on ImageNet demonstrate our method's superior
performance, achieving an average improvement of 59 points in Inception Score
compared to baselines. Notably, despite adding an inference step, our approach
achieves faster sampling speeds.Summary
AI-Generated Summary