ChatPaper.aiChatPaper

VL-GPT: 시각 및 언어 이해와 생성을 위한 생성형 사전 학습 트랜스포머

VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

December 14, 2023
저자: Jinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan
cs.AI

초록

본 연구에서는 시각 및 언어 데이터를 동시에 인지하고 생성할 수 있는 트랜스포머 모델인 Vision-Language Generative Pre-trained Transformer(VL-GPT)를 소개합니다. VL-GPT는 간단한 자기회귀 목표를 사용하여 이미지와 텍스트 양식에 대한 통합 사전 학습 접근 방식을 달성함으로써, 모델이 텍스트를 처리하는 것처럼 이미지와 텍스트를 원활하게 처리할 수 있도록 합니다. 이를 위해, 우리는 원시 이미지를 연속적인 임베딩 시퀀스로 변환하고 이를 재구성하기 위해 특별히 설계된 새로운 이미지 토크나이저-디토크나이저 프레임워크를 제안합니다. 기존의 텍스트 토크나이저 및 디토크나이저와 결합하여, 이 프레임워크는 이미지-텍스트 데이터를 멀티모달 시퀀스로 인코딩할 수 있게 하여 이를 트랜스포머 모델에 입력할 수 있도록 합니다. 결과적으로, VL-GPT는 통합된 자기회귀 목표(즉, 다음 토큰 예측)를 사용하여 멀티모달 코퍼스에 대한 대규모 사전 학습을 수행할 수 있습니다. 사전 학습 완료 후, VL-GPT는 이미지 캡셔닝, 시각 질의 응답, 텍스트-이미지 생성 등 다양한 시각 및 언어 이해 및 생성 작업에서 뛰어난 제로샷 및 퓨샷 성능을 보여줍니다. 또한, 사전 학습된 모델은 멀티모달 프롬프트가 제공될 때 컨텍스트 내 학습 능력을 유지합니다. 우리는 VL-GPT에 대한 인스트럭션 튜닝을 추가로 수행하여 멀티모달 지원에 대한 탁월한 잠재력을 강조합니다. 소스 코드와 모델 가중치는 공개될 예정입니다.
English
In this work, we introduce Vision-Language Generative Pre-trained Transformer (VL-GPT), a transformer model proficient at concurrently perceiving and generating visual and linguistic data. VL-GPT achieves a unified pre-training approach for both image and text modalities by employing a straightforward auto-regressive objective, thereby enabling the model to process image and text as seamlessly as a language model processes text. To accomplish this, we initially propose a novel image tokenizer-detokenizer framework for visual data, specifically designed to transform raw images into a sequence of continuous embeddings and reconstruct them accordingly. In combination with the existing text tokenizer and detokenizer, this framework allows for the encoding of interleaved image-text data into a multimodal sequence, which can subsequently be fed into the transformer model. Consequently, VL-GPT can perform large-scale pre-training on multimodal corpora utilizing a unified auto-regressive objective (i.e., next-token prediction). Upon completion of pre-training, VL-GPT exhibits remarkable zero-shot and few-shot performance across a diverse range of vision and language understanding and generation tasks, including image captioning, visual question answering, text-to-image generation, and more. Additionally, the pre-trained model retrains in-context learning capabilities when provided with multimodal prompts. We further conduct instruction tuning on our VL-GPT, highlighting its exceptional potential for multimodal assistance. The source code and model weights shall be released.
PDF101December 15, 2024