ChatPaper.aiChatPaper

시각-언어 지능의 한 줄기: 효율적인 미세 구조 이미지 생성을 위한 2차원 자기 회귀 트랜스포머

A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation

October 2, 2024
저자: Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang
cs.AI

초록

본 연구는 2차원 자기회귀 (DnD) 트랜스포머라고 불리는 혁신적인 모델 구조를 도입함으로써 벡터 양자화 (VQ) 자기회귀 이미지 생성의 정보 손실 병목 현상에 대응합니다. DnD-트랜스포머는 새로운 자기회귀 방향, 모델 깊이, 그리고 시퀀스 길이 방향을 도입함으로써 이미지에 대해 더 많은 코드를 예측합니다. 기존의 1차원 자기회귀 및 RQ-트랜스포머와 같은 2차원 이미지 분해를 활용한 이전 연구와 비교했을 때, DnD-트랜스포머는 동일한 백본 모델 크기와 시퀀스 길이로 더 높은 품질의 이미지를 생성할 수 있는 엔드-투-엔드 모델입니다. 이는 자기회귀 이미지 생성을 위한 새로운 최적화 관점을 열어줍니다. 더불어, 실험 결과는 DnD-트랜스포머의 잠재력이 자연 이미지를 생성하는 데 그치지 않음을 보여줍니다. 이 모델은 자가 감독 방식으로 풍부한 텍스트 및 그래픽 요소가 포함된 이미지를 생성할 수 있으며, 이는 이러한 복합 모달리티를 이해하는 것을 시연합니다. 이는 이전에 인기 있는 비전 생성 모델인 확산 모델과 같은 모델에서는 시각-언어 지능의 빛나는 가능성을 보여주지 않았으며, 이미지만을 학습한 경우에도 시각-언어 지능의 가능성을 보여줍니다. 코드, 데이터셋 및 모델은 https://github.com/chenllliang/DnD-Transformer에서 공개되어 있습니다.
English
This work tackles the information loss bottleneck of vector-quantization (VQ) autoregressive image generation by introducing a novel model architecture called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer predicts more codes for an image by introducing a new autoregression direction, model depth, along with the sequence length direction. Compared to traditional 1D autoregression and previous work utilizing similar 2D image decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end model that can generate higher quality images with the same backbone model size and sequence length, opening a new optimization perspective for autoregressive image generation. Furthermore, our experiments reveal that the DnD-Transformer's potential extends beyond generating natural images. It can even generate images with rich text and graphical elements in a self-supervised manner, demonstrating an understanding of these combined modalities. This has not been previously demonstrated for popular vision generative models such as diffusion models, showing a spark of vision-language intelligence when trained solely on images. Code, datasets and models are open at https://github.com/chenllliang/DnD-Transformer.

Summary

AI-Generated Summary

PDF142November 16, 2024