Instruct-Imagen: Генерация изображений с использованием многомодальных инструкций
Instruct-Imagen: Image Generation with Multi-modal Instruction
January 3, 2024
Авторы: Hexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia
cs.AI
Аннотация
В данной статье представлена модель instruct-imagen, которая решает задачи гетерогенной генерации изображений и обобщает их для ранее не встречавшихся задач. Мы вводим *мультимодальную инструкцию* для генерации изображений — представление задачи, которое точно формулирует различные намерения генерации. Она использует естественный язык для объединения различных модальностей (например, текст, контуры, стиль, объект и т.д.), что позволяет стандартизировать множество намерений генерации в едином формате.
Затем мы создаем instruct-imagen, дообучая предварительно обученную диффузионную модель для генерации изображений по тексту с использованием двухэтапной структуры. Сначала мы адаптируем модель с помощью обучения с усилением на основе извлечения данных, чтобы улучшить способность модели основывать генерацию на внешнем мультимодальном контексте. После этого мы дообучаем адаптированную модель на разнообразных задачах генерации изображений, требующих понимания взаимодействия зрения и языка (например, генерация на основе объекта и т.д.), каждая из которых сопровождается мультимодальной инструкцией, отражающей суть задачи. Оценка людьми на различных наборах данных для генерации изображений показывает, что instruct-imagen соответствует или превосходит предыдущие специализированные модели в рамках их областей применения, а также демонстрирует перспективные результаты в обобщении на ранее не встречавшиеся и более сложные задачи.
English
This paper presents instruct-imagen, a model that tackles heterogeneous image
generation tasks and generalizes across unseen tasks. We introduce *multi-modal
instruction* for image generation, a task representation articulating a range
of generation intents with precision. It uses natural language to amalgamate
disparate modalities (e.g., text, edge, style, subject, etc.), such that
abundant generation intents can be standardized in a uniform format.
We then build instruct-imagen by fine-tuning a pre-trained text-to-image
diffusion model with a two-stage framework. First, we adapt the model using the
retrieval-augmented training, to enhance model's capabilities to ground its
generation on external multimodal context. Subsequently, we fine-tune the
adapted model on diverse image generation tasks that requires vision-language
understanding (e.g., subject-driven generation, etc.), each paired with a
multi-modal instruction encapsulating the task's essence. Human evaluation on
various image generation datasets reveals that instruct-imagen matches or
surpasses prior task-specific models in-domain and demonstrates promising
generalization to unseen and more complex tasks.