ChatPaper.aiChatPaper

Lumina-mGPT: Озарение гибкой фотореалистичной генерации текста в изображение с мультимодальным генеративным предобучением.

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

August 5, 2024
Авторы: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao
cs.AI

Аннотация

Мы представляем Lumina-mGPT, семейство мультимодальных авторегрессионных моделей, способных выполнять различные задачи визуализации и языка, превосходящих в особенности в создании гибких фотореалистичных изображений по текстовым описаниям. В отличие от существующих подходов к авторегрессивной генерации изображений, Lumina-mGPT использует предварительно обученный декодерный трансформер в качестве объединенной структуры для моделирования мультимодальных последовательностей токенов. Наш ключевой инсайт заключается в том, что простой декодерный трансформер с мультимодальным предварительным обучением (mGPT), использующий цель предсказания следующего токена на массивных чередующихся текстово-изображенческих последовательностях, способен изучить широкие и общие мультимодальные возможности, тем самым проливая свет на фотореалистичную генерацию изображений по тексту. На основе этих предварительно обученных моделей мы предлагаем Гибкое Прогрессивное Обучение с Учителем (FP-SFT) на высококачественных парах изображение-текст для полного раскрытия их потенциала в синтезе изображений высокого качества на любом разрешении, сохраняя при этом их общие мультимодальные возможности. Кроме того, мы представляем Омнипотентное Обучение с Учителем (Omni-SFT), превращая Lumina-mGPT в базовую модель, которая безупречно достигает унификации задач. Полученная модель демонстрирует универсальные мультимодальные возможности, включая задачи визуальной генерации, такие как гибкая генерация изображений по тексту и управляемая генерация, задачи визуального распознавания, такие как сегментация и оценка глубины, а также задачи визия-язык, такие как многораундовый визуальный вопросно-ответный анализ. Кроме того, мы анализируем различия и сходства между методами на основе диффузии и авторегрессивными методами в прямом сравнении.
English
We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. Unlike existing autoregressive image generation approaches, Lumina-mGPT employs a pretrained decoder-only transformer as a unified framework for modeling multimodal token sequences. Our key insight is that a simple decoder-only transformer with multimodal Generative PreTraining (mGPT), utilizing the next-token prediction objective on massive interleaved text-image sequences, can learn broad and general multimodal capabilities, thereby illuminating photorealistic text-to-image generation. Building on these pretrained models, we propose Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text pairs to fully unlock their potential for high-aesthetic image synthesis at any resolution while maintaining their general multimodal capabilities. Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT), transforming Lumina-mGPT into a foundation model that seamlessly achieves omnipotent task unification. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like flexible text-to-image generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multiturn visual question answering. Additionally, we analyze the differences and similarities between diffusion-based and autoregressive methods in a direct comparison.

Summary

AI-Generated Summary

PDF362November 28, 2024