Ein Funke von Vision-Sprach-Intelligenz: 2-dimensionaler autoregressiver Transformer für effiziente feingranulare Bildgenerierung

papers.abstract

Diese Arbeit befasst sich mit dem Informationsverlust-Engpass der Vektorquantisierung (VQ) bei der autoregressiven Bildgenerierung durch die Einführung einer neuartigen Modellarchitektur namens 2-Dimensionaler Autoregression (DnD) Transformer. Der DnD-Transformer sagt mehr Codes für ein Bild voraus, indem er eine neue Autoregressionsrichtung, Modelltiefe, zusammen mit der Sequenzlängenrichtung einführt. Im Vergleich zur traditionellen 1D-Autoregression und früheren Arbeiten, die ähnliche 2D-Bildzerlegungen wie den RQ-Transformer nutzen, ist der DnD-Transformer ein End-to-End-Modell, das qualitativ hochwertigere Bilder mit derselben Grundmodellgröße und Sequenzlänge generieren kann und somit eine neue Optimierungsperspektive für die autoregressive Bildgenerierung eröffnet. Darüber hinaus zeigen unsere Experimente, dass das Potenzial des DnD-Transformers über die Generierung natürlicher Bilder hinausgeht. Er kann sogar Bilder mit reichhaltigen Text- und grafischen Elementen in einer selbstüberwachten Weise generieren und damit ein Verständnis für diese kombinierten Modalitäten zeigen. Dies wurde bisher nicht für beliebte visuelle generative Modelle wie Diffusionsmodelle demonstriert und zeigt einen Funken von Vision-Sprach-Intelligenz, wenn er ausschließlich auf Bilder trainiert wird. Der Code, die Datensätze und die Modelle sind unter https://github.com/chenllliang/DnD-Transformer öffentlich zugänglich.

English

This work tackles the information loss bottleneck of vector-quantization (VQ) autoregressive image generation by introducing a novel model architecture called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer predicts more codes for an image by introducing a new autoregression direction, model depth, along with the sequence length direction. Compared to traditional 1D autoregression and previous work utilizing similar 2D image decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end model that can generate higher quality images with the same backbone model size and sequence length, opening a new optimization perspective for autoregressive image generation. Furthermore, our experiments reveal that the DnD-Transformer's potential extends beyond generating natural images. It can even generate images with rich text and graphical elements in a self-supervised manner, demonstrating an understanding of these combined modalities. This has not been previously demonstrated for popular vision generative models such as diffusion models, showing a spark of vision-language intelligence when trained solely on images. Code, datasets and models are open at https://github.com/chenllliang/DnD-Transformer.

Ein Funke von Vision-Sprach-Intelligenz: 2-dimensionaler autoregressiver Transformer für effiziente feingranulare Bildgenerierung

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

papers.abstract

Support