ChatPaper.aiChatPaper

Uma Centelha de Inteligência Visão-Linguagem: Autoregressor 2-Dimensional Transformer para Geração Eficiente de Imagens Detalhadas.

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

October 2, 2024
Autores: Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang
cs.AI

Resumo

Este trabalho aborda o gargalo de perda de informação da geração de imagens autoregressiva por quantização vetorial (VQ) ao introduzir uma nova arquitetura de modelo chamada Transformador Autoregressivo 2-Dimensional (DnD). O DnD-Transformer prevê mais códigos para uma imagem ao introduzir uma nova direção de autoregressão, profundidade do modelo, juntamente com a direção do comprimento da sequência. Comparado à autoregressão 1D tradicional e trabalhos anteriores que utilizam uma decomposição de imagem 2D semelhante, como o RQ-Transformer, o DnD-Transformer é um modelo de ponta a ponta que pode gerar imagens de maior qualidade com o mesmo tamanho de modelo base e comprimento de sequência, abrindo uma nova perspectiva de otimização para a geração de imagens autoregressiva. Além disso, nossos experimentos revelam que o potencial do DnD-Transformer se estende além da geração de imagens naturais. Ele pode até gerar imagens com elementos de texto e gráficos em um modo auto-supervisionado, demonstrando uma compreensão dessas modalidades combinadas. Isso não foi demonstrado anteriormente para modelos generativos de visão populares, como modelos de difusão, mostrando um lampejo de inteligência visão-linguagem quando treinado exclusivamente em imagens. O código, conjuntos de dados e modelos estão disponíveis em https://github.com/chenllliang/DnD-Transformer.
English
This work tackles the information loss bottleneck of vector-quantization (VQ) autoregressive image generation by introducing a novel model architecture called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer predicts more codes for an image by introducing a new autoregression direction, model depth, along with the sequence length direction. Compared to traditional 1D autoregression and previous work utilizing similar 2D image decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end model that can generate higher quality images with the same backbone model size and sequence length, opening a new optimization perspective for autoregressive image generation. Furthermore, our experiments reveal that the DnD-Transformer's potential extends beyond generating natural images. It can even generate images with rich text and graphical elements in a self-supervised manner, demonstrating an understanding of these combined modalities. This has not been previously demonstrated for popular vision generative models such as diffusion models, showing a spark of vision-language intelligence when trained solely on images. Code, datasets and models are open at https://github.com/chenllliang/DnD-Transformer.

Summary

AI-Generated Summary

PDF142November 16, 2024