ChatPaper.aiChatPaper

Улучшение авторегрессионной генерации изображений с помощью предсказания токенов от грубого к детальному

Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction

March 20, 2025
Авторы: Ziyao Guo, Kaipeng Zhang, Michael Qizhe Shieh
cs.AI

Аннотация

Авторегрессионные модели продемонстрировали впечатляющие успехи в генерации изображений, адаптируя методы последовательного предсказания из области языкового моделирования. Однако применение этих подходов к изображениям требует дискретизации непрерывных данных пикселей с помощью методов векторного квантования, таких как VQ-VAE. Чтобы уменьшить ошибки квантования, присутствующие в VQ-VAE, в последних работах склоняются к использованию более крупных кодовых книг. Однако это соответственно увеличивает размер словаря, усложняя задачу авторегрессионного моделирования. Данная работа направлена на поиск способа использовать преимущества больших кодовых книг, не усложняя при этом авторегрессионное моделирование. В ходе эмпирического исследования мы обнаружили, что токены с похожими представлениями кодовых слов оказывают схожее влияние на итоговое сгенерированное изображение, что выявляет значительную избыточность в больших кодовых книгах. Основываясь на этом наблюдении, мы предлагаем предсказывать токены от грубого к детальному (CTF), что реализуется путем присвоения одинаковых грубых меток для похожих токенов. Наша структура состоит из двух этапов: (1) авторегрессионной модели, которая последовательно предсказывает грубые метки для каждого токена в последовательности, и (2) вспомогательной модели, которая одновременно предсказывает детализированные метки для всех токенов, учитывая их грубые метки. Эксперименты на ImageNet демонстрируют превосходную производительность нашего метода, достигая среднего улучшения на 59 баллов по шкале Inception Score по сравнению с базовыми подходами. Примечательно, что, несмотря на добавление дополнительного шага вывода, наш метод обеспечивает более высокую скорость генерации.
English
Autoregressive models have shown remarkable success in image generation by adapting sequential prediction techniques from language modeling. However, applying these approaches to images requires discretizing continuous pixel data through vector quantization methods like VQ-VAE. To alleviate the quantization errors that existed in VQ-VAE, recent works tend to use larger codebooks. However, this will accordingly expand vocabulary size, complicating the autoregressive modeling task. This paper aims to find a way to enjoy the benefits of large codebooks without making autoregressive modeling more difficult. Through empirical investigation, we discover that tokens with similar codeword representations produce similar effects on the final generated image, revealing significant redundancy in large codebooks. Based on this insight, we propose to predict tokens from coarse to fine (CTF), realized by assigning the same coarse label for similar tokens. Our framework consists of two stages: (1) an autoregressive model that sequentially predicts coarse labels for each token in the sequence, and (2) an auxiliary model that simultaneously predicts fine-grained labels for all tokens conditioned on their coarse labels. Experiments on ImageNet demonstrate our method's superior performance, achieving an average improvement of 59 points in Inception Score compared to baselines. Notably, despite adding an inference step, our approach achieves faster sampling speeds.

Summary

AI-Generated Summary

PDF82March 21, 2025