Ein Funke von Vision-Sprach-Intelligenz: 2-dimensionaler autoregressiver Transformer für effiziente feingranulare Bildgenerierung
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation
October 2, 2024
Autoren: Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang
cs.AI
Zusammenfassung
Diese Arbeit befasst sich mit dem Informationsverlust-Engpass der Vektorquantisierung (VQ) bei der autoregressiven Bildgenerierung durch die Einführung einer neuartigen Modellarchitektur namens 2-Dimensionaler Autoregression (DnD) Transformer. Der DnD-Transformer sagt mehr Codes für ein Bild voraus, indem er eine neue Autoregressionsrichtung, Modelltiefe, zusammen mit der Sequenzlängenrichtung einführt. Im Vergleich zur traditionellen 1D-Autoregression und früheren Arbeiten, die ähnliche 2D-Bildzerlegungen wie den RQ-Transformer nutzen, ist der DnD-Transformer ein End-to-End-Modell, das qualitativ hochwertigere Bilder mit derselben Grundmodellgröße und Sequenzlänge generieren kann und somit eine neue Optimierungsperspektive für die autoregressive Bildgenerierung eröffnet. Darüber hinaus zeigen unsere Experimente, dass das Potenzial des DnD-Transformers über die Generierung natürlicher Bilder hinausgeht. Er kann sogar Bilder mit reichhaltigen Text- und grafischen Elementen in einer selbstüberwachten Weise generieren und damit ein Verständnis für diese kombinierten Modalitäten zeigen. Dies wurde bisher nicht für beliebte visuelle generative Modelle wie Diffusionsmodelle demonstriert und zeigt einen Funken von Vision-Sprach-Intelligenz, wenn er ausschließlich auf Bilder trainiert wird. Der Code, die Datensätze und die Modelle sind unter https://github.com/chenllliang/DnD-Transformer öffentlich zugänglich.
English
This work tackles the information loss bottleneck of vector-quantization (VQ)
autoregressive image generation by introducing a novel model architecture
called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer
predicts more codes for an image by introducing a new autoregression direction,
model depth, along with the sequence length direction. Compared to
traditional 1D autoregression and previous work utilizing similar 2D image
decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end
model that can generate higher quality images with the same backbone model size
and sequence length, opening a new optimization perspective for autoregressive
image generation. Furthermore, our experiments reveal that the
DnD-Transformer's potential extends beyond generating natural images. It can
even generate images with rich text and graphical elements in a self-supervised
manner, demonstrating an understanding of these combined modalities. This has
not been previously demonstrated for popular vision generative models such as
diffusion models, showing a spark of vision-language intelligence when trained
solely on images. Code, datasets and models are open at
https://github.com/chenllliang/DnD-Transformer.Summary
AI-Generated Summary