Искра интеллекта зрительно-языковой системы: двумерный авторегрессивный трансформер для эффективной генерации изображений с тонкой детализацией.
A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation
October 2, 2024
Авторы: Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang
cs.AI
Аннотация
Эта работа решает проблему потери информации в узком месте квантования векторов (VQ) в авторегрессивной генерации изображений путем введения новой модельной архитектуры, названной 2-мерным авторегрессором (DnD) Трансформером. DnD-Трансформер предсказывает больше кодов для изображения путем введения нового направления авторегрессии, глубины модели, наряду с направлением длины последовательности. По сравнению с традиционной 1D авторегрессией и предыдущими работами, использующими аналогичное 2D разложение изображения, такое как RQ-Трансформер, DnD-Трансформер является моделью end-to-end, способной генерировать изображения более высокого качества с тем же размером основной модели и длиной последовательности, открывая новую перспективу оптимизации для авторегрессивной генерации изображений. Более того, наши эксперименты показывают, что потенциал DnD-Трансформера простирается далеко за пределы генерации естественных изображений. Он даже способен генерировать изображения с богатым текстом и графическими элементами самостоятельно, демонстрируя понимание этих объединенных модальностей. Это ранее не демонстрировалось для популярных моделей генерации видения, таких как модели диффузии, показывая искру интеллекта видения-языка при обучении исключительно на изображениях. Код, наборы данных и модели доступны по адресу https://github.com/chenllliang/DnD-Transformer.
English
This work tackles the information loss bottleneck of vector-quantization (VQ)
autoregressive image generation by introducing a novel model architecture
called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer
predicts more codes for an image by introducing a new autoregression direction,
model depth, along with the sequence length direction. Compared to
traditional 1D autoregression and previous work utilizing similar 2D image
decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end
model that can generate higher quality images with the same backbone model size
and sequence length, opening a new optimization perspective for autoregressive
image generation. Furthermore, our experiments reveal that the
DnD-Transformer's potential extends beyond generating natural images. It can
even generate images with rich text and graphical elements in a self-supervised
manner, demonstrating an understanding of these combined modalities. This has
not been previously demonstrated for popular vision generative models such as
diffusion models, showing a spark of vision-language intelligence when trained
solely on images. Code, datasets and models are open at
https://github.com/chenllliang/DnD-Transformer.Summary
AI-Generated Summary