ChatPaper.aiChatPaper

Las Ondículas Son Todo lo que Necesitas para la Generación Autoregresiva de Imágenes

Wavelets Are All You Need for Autoregressive Image Generation

June 28, 2024
Autores: Wael Mattar, Idan Levy, Nir Sharon, Shai Dekel
cs.AI

Resumen

En este artículo, adoptamos un nuevo enfoque para la generación autoregresiva de imágenes que se basa en dos componentes principales. El primero es la codificación de imágenes mediante wavelets, que permite tokenizar los detalles visuales de una imagen desde los más gruesos hasta los más finos, ordenando la información comenzando con los bits más significativos de los coeficientes wavelet más relevantes. El segundo es una variante de un transformador de lenguaje cuya arquitectura ha sido rediseñada y optimizada para secuencias de tokens en este "lenguaje wavelet". El transformador aprende las correlaciones estadísticas significativas dentro de una secuencia de tokens, que son manifestaciones de las bien conocidas correlaciones entre los subbandas wavelet a diversas resoluciones. Presentamos resultados experimentales con condicionamiento en el proceso de generación.
English
In this paper, we take a new approach to autoregressive image generation that is based on two main ingredients. The first is wavelet image coding, which allows to tokenize the visual details of an image from coarse to fine details by ordering the information starting with the most significant bits of the most significant wavelet coefficients. The second is a variant of a language transformer whose architecture is re-designed and optimized for token sequences in this 'wavelet language'. The transformer learns the significant statistical correlations within a token sequence, which are the manifestations of well-known correlations between the wavelet subbands at various resolutions. We show experimental results with conditioning on the generation process.

Summary

AI-Generated Summary

PDF325November 28, 2024