ChatPaper.aiChatPaper

Lumina-mGPT: 다중 모달 생성 사전 훈련을 활용한 유연한 사실적 텍스트 대 이미지 생성

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

August 5, 2024
저자: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao
cs.AI

초록

Lumina-mGPT는 다양한 비전 및 언어 작업을 수행할 수 있는 다중 모달 자기 회귀 모델 패밀리를 제시합니다. 특히 텍스트 설명으로부터 유연한 사실적 이미지를 생성하는 데 뛰어납니다. 기존의 자기 회귀 이미지 생성 방법과는 달리, Lumina-mGPT는 사전 학습된 디코더 전용 트랜스포머를 사용하여 다중 모달 토큰 시퀀스를 모델링하는 통합된 프레임워크로 활용합니다. 우리의 주요 통찰력은 대규모 교차된 텍스트-이미지 시퀀스에서 다음 토큰 예측 목표를 활용하는 다중 모달 생성 사전 학습(mGPT)을 사용하는 간단한 디코더 전용 트랜스포머가 광범위하고 일반적인 다중 모달 기능을 학습할 수 있으며, 이를 통해 사실적인 텍스트-이미지 생성을 밝혀냅니다. 이러한 사전 학습 모델을 기반으로, 우리는 고품질 이미지-텍스트 쌍에 대한 유연한 점진적 지도 미세 조정(FP-SFT)을 제안하여 고해상도에서 높은 미학적 이미지 합성의 잠재력을 완전히 발휘하면서 일반적인 다중 모달 기능을 유지합니다. 더 나아가, 우리는 Lumina-mGPT를 옴니포넌트 지도 미세 조정(Omni-SFT)으로 소개하여 모든 작업 통합을 원활하게 달성하는 기본 모델로 변환합니다. 결과적으로 이 모델은 유연한 텍스트-이미지 생성 및 제어 가능한 생성과 같은 시각적 생성 작업, 분할 및 깊이 추정과 같은 시각 인식 작업, 그리고 다중 턴 시각적 질문 응답과 같은 시각-언어 작업을 포함한 다양한 다중 모달 기능을 보여줍니다. 게다가, 확산 기반 및 자기 회귀 방법 사이의 차이와 유사성을 직접 비교하여 분석합니다.
English
We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. Unlike existing autoregressive image generation approaches, Lumina-mGPT employs a pretrained decoder-only transformer as a unified framework for modeling multimodal token sequences. Our key insight is that a simple decoder-only transformer with multimodal Generative PreTraining (mGPT), utilizing the next-token prediction objective on massive interleaved text-image sequences, can learn broad and general multimodal capabilities, thereby illuminating photorealistic text-to-image generation. Building on these pretrained models, we propose Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text pairs to fully unlock their potential for high-aesthetic image synthesis at any resolution while maintaining their general multimodal capabilities. Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT), transforming Lumina-mGPT into a foundation model that seamlessly achieves omnipotent task unification. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like flexible text-to-image generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multiturn visual question answering. Additionally, we analyze the differences and similarities between diffusion-based and autoregressive methods in a direct comparison.

Summary

AI-Generated Summary

PDF362November 28, 2024