ChatPaper.aiChatPaper

Het verbeteren van autoregressieve beeldgeneratie via coarse-to-fine tokenvoorspelling

Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction

March 20, 2025
Auteurs: Ziyao Guo, Kaipeng Zhang, Michael Qizhe Shieh
cs.AI

Samenvatting

Autoregressieve modellen hebben opmerkelijke successen geboekt in beeldgeneratie door sequentiële voorspeltechnieken uit taalmodeling aan te passen. Het toepassen van deze benaderingen op afbeeldingen vereist echter het discretiseren van continue pixelgegevens via vectorkwantiseringsmethoden zoals VQ-VAE. Om de kwantiseringsfouten die in VQ-VAE bestaan te verminderen, neigen recente werken ernaar grotere codeboeken te gebruiken. Dit breidt echter het vocabulaire uit, wat de autoregressieve modelleringstaak bemoeilijkt. Dit artikel heeft als doel een manier te vinden om de voordelen van grote codeboeken te benutten zonder de autoregressieve modellering moeilijker te maken. Door empirisch onderzoek ontdekken we dat tokens met vergelijkbare codewoordrepresentaties vergelijkbare effecten hebben op het uiteindelijk gegenereerde beeld, wat een aanzienlijke redundantie in grote codeboeken aan het licht brengt. Op basis van dit inzicht stellen we voor om tokens van grof naar fijn (CTF) te voorspellen, gerealiseerd door het toewijzen van hetzelfde grove label aan vergelijkbare tokens. Ons raamwerk bestaat uit twee fasen: (1) een autoregressief model dat sequentieel grove labels voorspelt voor elke token in de reeks, en (2) een hulpmodel dat gelijktijdig fijnmazige labels voorspelt voor alle tokens, afhankelijk van hun grove labels. Experimenten op ImageNet tonen de superieure prestaties van onze methode aan, met een gemiddelde verbetering van 59 punten in de Inception Score vergeleken met de basislijnen. Opmerkelijk is dat, ondanks het toevoegen van een inferentiestap, onze aanpak snellere bemonsteringssnelheden bereikt.
English
Autoregressive models have shown remarkable success in image generation by adapting sequential prediction techniques from language modeling. However, applying these approaches to images requires discretizing continuous pixel data through vector quantization methods like VQ-VAE. To alleviate the quantization errors that existed in VQ-VAE, recent works tend to use larger codebooks. However, this will accordingly expand vocabulary size, complicating the autoregressive modeling task. This paper aims to find a way to enjoy the benefits of large codebooks without making autoregressive modeling more difficult. Through empirical investigation, we discover that tokens with similar codeword representations produce similar effects on the final generated image, revealing significant redundancy in large codebooks. Based on this insight, we propose to predict tokens from coarse to fine (CTF), realized by assigning the same coarse label for similar tokens. Our framework consists of two stages: (1) an autoregressive model that sequentially predicts coarse labels for each token in the sequence, and (2) an auxiliary model that simultaneously predicts fine-grained labels for all tokens conditioned on their coarse labels. Experiments on ImageNet demonstrate our method's superior performance, achieving an average improvement of 59 points in Inception Score compared to baselines. Notably, despite adding an inference step, our approach achieves faster sampling speeds.

Summary

AI-Generated Summary

PDF82March 21, 2025