Een Vonk van Visie-Taal Intelligentie: 2-Dimensionale Autoregressieve Transformer voor Efficiënte Fijnmazige Beeldgeneratie
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation
October 2, 2024
Auteurs: Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang
cs.AI
Samenvatting
Dit werk pakt de informatie-verlies bottleneck van vector-kwantisatie (VQ) autoregressieve beeldgeneratie aan door een nieuw modelarchitectuur te introduceren genaamd de 2-Dimensionale Autoregressie (DnD) Transformer. De DnD-Transformer voorspelt meer codes voor een afbeelding door een nieuwe autoregressie richting, model diepte, samen met de sequentie lengte richting te introduceren. Vergeleken met traditionele 1D autoregressie en eerdere werken die vergelijkbare 2D beelddecompositie gebruiken zoals de RQ-Transformer, is de DnD-Transformer een end-to-end model dat hogere kwaliteit afbeeldingen kan genereren met dezelfde basis model grootte en sequentie lengte, wat een nieuw optimalisatie perspectief opent voor autoregressieve beeldgeneratie. Bovendien tonen onze experimenten aan dat het potentieel van de DnD-Transformer zich uitstrekt voorbij het genereren van natuurlijke afbeeldingen. Het kan zelfs afbeeldingen genereren met rijke tekst- en grafische elementen op een zelf-toezicht manier, wat een begrip van deze gecombineerde modaliteiten aantoont. Dit is niet eerder aangetoond voor populaire vision generatieve modellen zoals diffusie modellen, wat een vonk van visie-taal intelligentie laat zien wanneer alleen getraind op afbeeldingen. Code, datasets en modellen zijn beschikbaar op https://github.com/chenllliang/DnD-Transformer.
English
This work tackles the information loss bottleneck of vector-quantization (VQ)
autoregressive image generation by introducing a novel model architecture
called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer
predicts more codes for an image by introducing a new autoregression direction,
model depth, along with the sequence length direction. Compared to
traditional 1D autoregression and previous work utilizing similar 2D image
decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end
model that can generate higher quality images with the same backbone model size
and sequence length, opening a new optimization perspective for autoregressive
image generation. Furthermore, our experiments reveal that the
DnD-Transformer's potential extends beyond generating natural images. It can
even generate images with rich text and graphical elements in a self-supervised
manner, demonstrating an understanding of these combined modalities. This has
not been previously demonstrated for popular vision generative models such as
diffusion models, showing a spark of vision-language intelligence when trained
solely on images. Code, datasets and models are open at
https://github.com/chenllliang/DnD-Transformer.Summary
AI-Generated Summary