ChatPaper.aiChatPaper

X-Prompt: К универсальному контекстному генерированию изображений в авторегрессионных моделях основы видео-языкового моделирования

X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

December 2, 2024
Авторы: Zeyi Sun, Ziyang Chu, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI

Аннотация

Генерация в контексте является ключевым компонентом способности к обобщению открытых задач больших моделей языка (LLM) на различные задачи. Используя несколько примеров в качестве контекста, LLM могут выполнять как задачи в предметной области, так и задачи вне предметной области. Недавние достижения в авторегрессионных моделях видео-языка (VLM), построенных на основе LLM, продемонстрировали впечатляющую производительность в генерации текста к изображению. Однако потенциал обучения в контексте для общих задач генерации изображений остается в значительной степени неисследованным. Для решения этой проблемы мы представляем X-Prompt, чисто авторегрессионную крупномасштабную модель языка видения, разработанную для достижения конкурентоспособной производительности на широком спектре как видимых, так и невидимых задач генерации изображений, все в рамках унифицированной системы обучения в контексте. X-Prompt включает специализированный дизайн, который эффективно сжимает ценные характеристики из примеров в контексте, поддерживая более длинные последовательности токенов в контексте и улучшая его способность к обобщению на невидимые задачи. Унифицированная обучающая задача как для предсказания текста, так и для изображения позволяет X-Prompt обрабатывать общие задачи генерации изображений с улучшенным осознанием задачи на основе примеров в контексте. Обширные эксперименты подтверждают производительность модели на различных видимых задачах генерации изображений и ее способность к обобщению на ранее невидимые задачи.
English
In-context generation is a key component of large language models' (LLMs) open-task generalization capability. By leveraging a few examples as context, LLMs can perform both in-domain and out-of-domain tasks. Recent advancements in auto-regressive vision-language models (VLMs) built upon LLMs have showcased impressive performance in text-to-image generation. However, the potential of in-context learning for general image generation tasks remains largely unexplored. To address this, we introduce X-Prompt, a purely auto-regressive large-vision language model designed to deliver competitive performance across a wide range of both seen and unseen image generation tasks, all within a unified in-context learning framework. X-Prompt incorporates a specialized design that efficiently compresses valuable features from in-context examples, supporting longer in-context token sequences and improving its ability to generalize to unseen tasks. A unified training task for both text and image prediction enables X-Prompt to handle general image generation with enhanced task awareness from in-context examples. Extensive experiments validate the model's performance across diverse seen image generation tasks and its capacity to generalize to previously unseen tasks.

Summary

AI-Generated Summary

PDF662December 3, 2024