Una scintilla di intelligenza visione-linguaggio: Trasformatore Autoregressivo Bidimensionale per la Generazione Efficient di Immagini Dettagliate.
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation
October 2, 2024
Autori: Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang
cs.AI
Abstract
Questo lavoro affronta il collo di bottiglia della perdita di informazioni della generazione di immagini autoregressive mediante quantizzazione vettoriale (VQ) introducendo una nuova architettura di modello chiamata Trasformatore Autoregressivo 2-Dimensionale (DnD). Il DnD-Transformer prevede più codici per un'immagine introducendo una nuova direzione di autoregressione, profondità del modello, insieme alla direzione della lunghezza della sequenza. Rispetto alla tradizionale autoregressione 1D e ai lavori precedenti che utilizzano una decomposizione dell'immagine 2D simile come il RQ-Transformer, il DnD-Transformer è un modello end-to-end che può generare immagini di qualità superiore con la stessa dimensione del modello di base e lunghezza della sequenza, aprendo una nuova prospettiva di ottimizzazione per la generazione di immagini autoregressive. Inoltre, i nostri esperimenti rivelano che il potenziale del DnD-Transformer si estende oltre la generazione di immagini naturali. Può persino generare immagini con testo ricco ed elementi grafici in modo auto-supervisionato, dimostrando una comprensione di queste modalità combinate. Questo non è stato precedentemente dimostrato per modelli generativi di visione popolari come i modelli di diffusione, mostrando una scintilla di intelligenza visione-linguaggio quando addestrato esclusivamente su immagini. Codice, set di dati e modelli sono disponibili su https://github.com/chenllliang/DnD-Transformer.
English
This work tackles the information loss bottleneck of vector-quantization (VQ)
autoregressive image generation by introducing a novel model architecture
called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer
predicts more codes for an image by introducing a new autoregression direction,
model depth, along with the sequence length direction. Compared to
traditional 1D autoregression and previous work utilizing similar 2D image
decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end
model that can generate higher quality images with the same backbone model size
and sequence length, opening a new optimization perspective for autoregressive
image generation. Furthermore, our experiments reveal that the
DnD-Transformer's potential extends beyond generating natural images. It can
even generate images with rich text and graphical elements in a self-supervised
manner, demonstrating an understanding of these combined modalities. This has
not been previously demonstrated for popular vision generative models such as
diffusion models, showing a spark of vision-language intelligence when trained
solely on images. Code, datasets and models are open at
https://github.com/chenllliang/DnD-Transformer.