ChatPaper.aiChatPaper

Instruct-Imagen: Afbeeldingen Genereren met Multi-modale Instructies

Instruct-Imagen: Image Generation with Multi-modal Instruction

January 3, 2024
Auteurs: Hexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia
cs.AI

Samenvatting

Dit artikel presenteert instruct-imagen, een model dat heterogene beeldgeneratietaken aanpakt en generaliseert over onbekende taken. We introduceren *multi-modale instructie* voor beeldgeneratie, een taakrepresentatie die een reeks generatie-intenties nauwkeurig verwoordt. Het gebruikt natuurlijke taal om verschillende modaliteiten (bijvoorbeeld tekst, rand, stijl, onderwerp, enz.) te combineren, zodat overvloedige generatie-intenties gestandaardiseerd kunnen worden in een uniform formaat. Vervolgens bouwen we instruct-imagen door een vooraf getraind tekst-naar-beeld diffusiemodel te fine-tunen met een tweestaps raamwerk. Eerst passen we het model aan met behulp van retrieval-augmented training, om de mogelijkheden van het model te verbeteren om zijn generatie te baseren op externe multimodale context. Daarna fine-tunen we het aangepaste model op diverse beeldgeneratietaken die visie-taalbegrip vereisen (bijvoorbeeld onderwerpgedreven generatie, enz.), elk gepaard met een multi-modale instructie die de essentie van de taak omvat. Menselijke evaluatie op verschillende beeldgeneratiedatasets toont aan dat instruct-imagen gelijkwaardig is aan of beter presteert dan eerdere taakspecifieke modellen binnen het domein en veelbelovende generalisatie vertoont naar onbekende en complexere taken.
English
This paper presents instruct-imagen, a model that tackles heterogeneous image generation tasks and generalizes across unseen tasks. We introduce *multi-modal instruction* for image generation, a task representation articulating a range of generation intents with precision. It uses natural language to amalgamate disparate modalities (e.g., text, edge, style, subject, etc.), such that abundant generation intents can be standardized in a uniform format. We then build instruct-imagen by fine-tuning a pre-trained text-to-image diffusion model with a two-stage framework. First, we adapt the model using the retrieval-augmented training, to enhance model's capabilities to ground its generation on external multimodal context. Subsequently, we fine-tune the adapted model on diverse image generation tasks that requires vision-language understanding (e.g., subject-driven generation, etc.), each paired with a multi-modal instruction encapsulating the task's essence. Human evaluation on various image generation datasets reveals that instruct-imagen matches or surpasses prior task-specific models in-domain and demonstrates promising generalization to unseen and more complex tasks.
PDF323February 8, 2026