ChatPaper.aiChatPaper

Instruct-Imagen: Bildgenerierung mit multimodaler Instruktion

Instruct-Imagen: Image Generation with Multi-modal Instruction

January 3, 2024
Autoren: Hexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia
cs.AI

Zusammenfassung

Dieses Papier stellt instruct-imagen vor, ein Modell, das heterogene Bildgenerierungsaufgaben bewältigt und sich auf unbekannte Aufgaben verallgemeinert. Wir führen *multi-modale Instruktionen* für die Bildgenerierung ein, eine Aufgabenrepräsentation, die eine Vielzahl von Generierungsabsichten präzise artikuliert. Es verwendet natürliche Sprache, um unterschiedliche Modalitäten (z. B. Text, Kanten, Stil, Subjekt usw.) zu vereinen, sodass zahlreiche Generierungsabsichten in einem einheitlichen Format standardisiert werden können. Anschließend entwickeln wir instruct-imagen, indem wir ein vortrainiertes Text-zu-Bild-Diffusionsmodell mit einem zweistufigen Framework feinabstimmen. Zunächst passen wir das Modell mithilfe des retrieval-augmentierten Trainings an, um die Fähigkeiten des Modells zu verbessern, seine Generierung auf externen multimodalen Kontext zu stützen. Danach feinabstimmen wir das angepasste Modell auf verschiedene Bildgenerierungsaufgaben, die ein Verständnis von Vision und Sprache erfordern (z. B. subjektgesteuerte Generierung usw.), wobei jede Aufgabe mit einer multi-modalen Instruktion gepaart ist, die das Wesen der Aufgabe zusammenfasst. Menschliche Bewertungen auf verschiedenen Bildgenerierungsdatensätzen zeigen, dass instruct-imagen frühere aufgabenspezifische Modelle im Bereich der Domäne erreicht oder übertrifft und vielversprechende Generalisierungsfähigkeiten für unbekannte und komplexere Aufgaben aufweist.
English
This paper presents instruct-imagen, a model that tackles heterogeneous image generation tasks and generalizes across unseen tasks. We introduce *multi-modal instruction* for image generation, a task representation articulating a range of generation intents with precision. It uses natural language to amalgamate disparate modalities (e.g., text, edge, style, subject, etc.), such that abundant generation intents can be standardized in a uniform format. We then build instruct-imagen by fine-tuning a pre-trained text-to-image diffusion model with a two-stage framework. First, we adapt the model using the retrieval-augmented training, to enhance model's capabilities to ground its generation on external multimodal context. Subsequently, we fine-tune the adapted model on diverse image generation tasks that requires vision-language understanding (e.g., subject-driven generation, etc.), each paired with a multi-modal instruction encapsulating the task's essence. Human evaluation on various image generation datasets reveals that instruct-imagen matches or surpasses prior task-specific models in-domain and demonstrates promising generalization to unseen and more complex tasks.
PDF323December 15, 2024