Una scintilla di intelligenza visione-linguaggio: Trasformatore Autoregressivo Bidimensionale per la Generazione Efficient di Immagini Dettagliate.

Abstract

Questo lavoro affronta il collo di bottiglia della perdita di informazioni della generazione di immagini autoregressive mediante quantizzazione vettoriale (VQ) introducendo una nuova architettura di modello chiamata Trasformatore Autoregressivo 2-Dimensionale (DnD). Il DnD-Transformer prevede più codici per un'immagine introducendo una nuova direzione di autoregressione, profondità del modello, insieme alla direzione della lunghezza della sequenza. Rispetto alla tradizionale autoregressione 1D e ai lavori precedenti che utilizzano una decomposizione dell'immagine 2D simile come il RQ-Transformer, il DnD-Transformer è un modello end-to-end che può generare immagini di qualità superiore con la stessa dimensione del modello di base e lunghezza della sequenza, aprendo una nuova prospettiva di ottimizzazione per la generazione di immagini autoregressive. Inoltre, i nostri esperimenti rivelano che il potenziale del DnD-Transformer si estende oltre la generazione di immagini naturali. Può persino generare immagini con testo ricco ed elementi grafici in modo auto-supervisionato, dimostrando una comprensione di queste modalità combinate. Questo non è stato precedentemente dimostrato per modelli generativi di visione popolari come i modelli di diffusione, mostrando una scintilla di intelligenza visione-linguaggio quando addestrato esclusivamente su immagini. Codice, set di dati e modelli sono disponibili su https://github.com/chenllliang/DnD-Transformer.

English

This work tackles the information loss bottleneck of vector-quantization (VQ) autoregressive image generation by introducing a novel model architecture called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer predicts more codes for an image by introducing a new autoregression direction, model depth, along with the sequence length direction. Compared to traditional 1D autoregression and previous work utilizing similar 2D image decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end model that can generate higher quality images with the same backbone model size and sequence length, opening a new optimization perspective for autoregressive image generation. Furthermore, our experiments reveal that the DnD-Transformer's potential extends beyond generating natural images. It can even generate images with rich text and graphical elements in a self-supervised manner, demonstrating an understanding of these combined modalities. This has not been previously demonstrated for popular vision generative models such as diffusion models, showing a spark of vision-language intelligence when trained solely on images. Code, datasets and models are open at https://github.com/chenllliang/DnD-Transformer.

Una scintilla di intelligenza visione-linguaggio: Trasformatore Autoregressivo Bidimensionale per la Generazione Efficient di Immagini Dettagliate.

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

Abstract

Support