Instruct-Imagen: Bildgenerierung mit multimodaler Instruktion
Instruct-Imagen: Image Generation with Multi-modal Instruction
January 3, 2024
Autoren: Hexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia
cs.AI
Zusammenfassung
Dieses Papier stellt instruct-imagen vor, ein Modell, das heterogene Bildgenerierungsaufgaben bewältigt und sich auf unbekannte Aufgaben verallgemeinert. Wir führen *multi-modale Instruktionen* für die Bildgenerierung ein, eine Aufgabenrepräsentation, die eine Vielzahl von Generierungsabsichten präzise artikuliert. Es verwendet natürliche Sprache, um unterschiedliche Modalitäten (z. B. Text, Kanten, Stil, Subjekt usw.) zu vereinen, sodass zahlreiche Generierungsabsichten in einem einheitlichen Format standardisiert werden können.
Anschließend entwickeln wir instruct-imagen, indem wir ein vortrainiertes Text-zu-Bild-Diffusionsmodell mit einem zweistufigen Framework feinabstimmen. Zunächst passen wir das Modell mithilfe des retrieval-augmentierten Trainings an, um die Fähigkeiten des Modells zu verbessern, seine Generierung auf externen multimodalen Kontext zu stützen. Danach feinabstimmen wir das angepasste Modell auf verschiedene Bildgenerierungsaufgaben, die ein Verständnis von Vision und Sprache erfordern (z. B. subjektgesteuerte Generierung usw.), wobei jede Aufgabe mit einer multi-modalen Instruktion gepaart ist, die das Wesen der Aufgabe zusammenfasst. Menschliche Bewertungen auf verschiedenen Bildgenerierungsdatensätzen zeigen, dass instruct-imagen frühere aufgabenspezifische Modelle im Bereich der Domäne erreicht oder übertrifft und vielversprechende Generalisierungsfähigkeiten für unbekannte und komplexere Aufgaben aufweist.
English
This paper presents instruct-imagen, a model that tackles heterogeneous image
generation tasks and generalizes across unseen tasks. We introduce *multi-modal
instruction* for image generation, a task representation articulating a range
of generation intents with precision. It uses natural language to amalgamate
disparate modalities (e.g., text, edge, style, subject, etc.), such that
abundant generation intents can be standardized in a uniform format.
We then build instruct-imagen by fine-tuning a pre-trained text-to-image
diffusion model with a two-stage framework. First, we adapt the model using the
retrieval-augmented training, to enhance model's capabilities to ground its
generation on external multimodal context. Subsequently, we fine-tune the
adapted model on diverse image generation tasks that requires vision-language
understanding (e.g., subject-driven generation, etc.), each paired with a
multi-modal instruction encapsulating the task's essence. Human evaluation on
various image generation datasets reveals that instruct-imagen matches or
surpasses prior task-specific models in-domain and demonstrates promising
generalization to unseen and more complex tasks.