ChatPaper.aiChatPaper

Les ondelettes sont tout ce dont vous avez besoin pour la génération d'images autorégressive.

Wavelets Are All You Need for Autoregressive Image Generation

June 28, 2024
Auteurs: Wael Mattar, Idan Levy, Nir Sharon, Shai Dekel
cs.AI

Résumé

Dans cet article, nous adoptons une nouvelle approche pour la génération d'images autorégressive, basée sur deux éléments principaux. Le premier est le codage d'images par ondelettes, qui permet de tokeniser les détails visuels d'une image, des plus grossiers aux plus fins, en ordonnant l'information en commençant par les bits les plus significatifs des coefficients d'ondelettes les plus importants. Le second est une variante d'un transformeur de langage dont l'architecture est repensée et optimisée pour les séquences de tokens dans ce « langage d'ondelettes ». Le transformeur apprend les corrélations statistiques significatives au sein d'une séquence de tokens, qui sont des manifestations des corrélations bien connues entre les sous-bandes d'ondelettes à différentes résolutions. Nous présentons des résultats expérimentaux avec conditionnement sur le processus de génération.
English
In this paper, we take a new approach to autoregressive image generation that is based on two main ingredients. The first is wavelet image coding, which allows to tokenize the visual details of an image from coarse to fine details by ordering the information starting with the most significant bits of the most significant wavelet coefficients. The second is a variant of a language transformer whose architecture is re-designed and optimized for token sequences in this 'wavelet language'. The transformer learns the significant statistical correlations within a token sequence, which are the manifestations of well-known correlations between the wavelet subbands at various resolutions. We show experimental results with conditioning on the generation process.

Summary

AI-Generated Summary

PDF325November 28, 2024