Une étincelle d'intelligence vision-langage : Transformateur autoregressif bidimensionnel pour une génération efficace d'images détaillées.
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation
October 2, 2024
Auteurs: Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang
cs.AI
Résumé
Ce travail aborde le goulot d'étranglement de perte d'information de la génération d'images autoregressive par quantification vectorielle (VQ) en introduisant une nouvelle architecture de modèle appelée Transformateur d'Autorégression 2-Dimensionnel (DnD). Le DnD-Transformer prédit davantage de codes pour une image en introduisant une nouvelle direction d'autorégression, une profondeur de modèle, ainsi que la direction de la longueur de séquence. Comparé à l'autorégression 1D traditionnelle et aux travaux précédents utilisant une décomposition d'image 2D similaire telle que le RQ-Transformer, le DnD-Transformer est un modèle de bout en bout capable de générer des images de meilleure qualité avec la même taille de modèle de base et la même longueur de séquence, ouvrant une nouvelle perspective d'optimisation pour la génération d'images autoregressive. De plus, nos expériences révèlent que le potentiel du DnD-Transformer s'étend au-delà de la génération d'images naturelles. Il peut même générer des images avec du texte riche et des éléments graphiques de manière auto-supervisée, démontrant une compréhension de ces modalités combinées. Cela n'avait pas été démontré auparavant pour des modèles génératifs de vision populaires tels que les modèles de diffusion, montrant une étincelle d'intelligence vision-langage lorsqu'ils sont entraînés uniquement sur des images. Le code, les ensembles de données et les modèles sont disponibles sur https://github.com/chenllliang/DnD-Transformer.
English
This work tackles the information loss bottleneck of vector-quantization (VQ)
autoregressive image generation by introducing a novel model architecture
called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer
predicts more codes for an image by introducing a new autoregression direction,
model depth, along with the sequence length direction. Compared to
traditional 1D autoregression and previous work utilizing similar 2D image
decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end
model that can generate higher quality images with the same backbone model size
and sequence length, opening a new optimization perspective for autoregressive
image generation. Furthermore, our experiments reveal that the
DnD-Transformer's potential extends beyond generating natural images. It can
even generate images with rich text and graphical elements in a self-supervised
manner, demonstrating an understanding of these combined modalities. This has
not been previously demonstrated for popular vision generative models such as
diffusion models, showing a spark of vision-language intelligence when trained
solely on images. Code, datasets and models are open at
https://github.com/chenllliang/DnD-Transformer.Summary
AI-Generated Summary