ChatPaper.aiChatPaper

Una Chispa de Inteligencia de Visión-Lenguaje: Transformador Autoregresivo 2-Dimensional para Generación Eficiente de Imágenes Detalladas.

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

October 2, 2024
Autores: Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang
cs.AI

Resumen

Este trabajo aborda el cuello de botella de pérdida de información de la cuantificación vectorial (VQ) en la generación de imágenes autoregresivas mediante la introducción de una nueva arquitectura de modelo llamada Transformador Autoregresivo 2-Dimensional (DnD). El DnD-Transformer predice más códigos para una imagen al introducir una nueva dirección de autoregresión, profundidad del modelo, junto con la dirección de longitud de secuencia. En comparación con la autoregresión 1D tradicional y trabajos anteriores que utilizan una descomposición de imagen 2D similar como el RQ-Transformer, el DnD-Transformer es un modelo de extremo a extremo que puede generar imágenes de mayor calidad con el mismo tamaño de modelo base y longitud de secuencia, abriendo una nueva perspectiva de optimización para la generación de imágenes autoregresivas. Además, nuestros experimentos revelan que el potencial del DnD-Transformer se extiende más allá de la generación de imágenes naturales. Incluso puede generar imágenes con elementos de texto y gráficos enriquecidos de manera auto-supervisada, demostrando una comprensión de estas modalidades combinadas. Esto no se ha demostrado previamente para modelos generativos de visión populares como los modelos de difusión, mostrando un destello de inteligencia visión-lenguaje cuando se entrena únicamente con imágenes. El código, conjuntos de datos y modelos están disponibles en https://github.com/chenllliang/DnD-Transformer.
English
This work tackles the information loss bottleneck of vector-quantization (VQ) autoregressive image generation by introducing a novel model architecture called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer predicts more codes for an image by introducing a new autoregression direction, model depth, along with the sequence length direction. Compared to traditional 1D autoregression and previous work utilizing similar 2D image decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end model that can generate higher quality images with the same backbone model size and sequence length, opening a new optimization perspective for autoregressive image generation. Furthermore, our experiments reveal that the DnD-Transformer's potential extends beyond generating natural images. It can even generate images with rich text and graphical elements in a self-supervised manner, demonstrating an understanding of these combined modalities. This has not been previously demonstrated for popular vision generative models such as diffusion models, showing a spark of vision-language intelligence when trained solely on images. Code, datasets and models are open at https://github.com/chenllliang/DnD-Transformer.

Summary

AI-Generated Summary

PDF142November 16, 2024