MIGE: Een Geïntegreerd Framework voor Multimodale Instructie-Gestuurde Afbeeldinggeneratie en -bewerking
MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing
February 28, 2025
Auteurs: Xueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen
cs.AI
Samenvatting
Ondanks aanzienlijke vooruitgang in diffusiegebaseerde beeldgeneratie,
blijven onderwerpgestuurde generatie en instructiegebaseerde bewerking uitdagend.
Bestaande methoden behandelen deze doorgaans afzonderlijk, waarbij ze worstelen met beperkte
hoogwaardige data en slechte generalisatie. Beide taken vereisen echter
het vastleggen van complexe visuele variaties terwijl consistentie tussen
invoer en uitvoer behouden blijft. Daarom stellen we MIGE voor, een uniform raamwerk dat
taakrepresentaties standaardiseert met behulp van multimodale instructies. Het behandelt
onderwerpgestuurde generatie als creatie op een blanco canvas en instructiegebaseerde
bewerking als aanpassing van een bestaand beeld, waardoor een gedeelde
invoer-uitvoerformulering wordt vastgesteld. MIGE introduceert een nieuwe multimodale encoder die
vrije-vorm multimodale instructies afbeeldt naar een uniforme visie-taalruimte,
waarbij visuele en semantische kenmerken worden geïntegreerd via een kenmerkfusie-
mechanisme. Deze unificatie maakt gezamenlijke training van beide taken mogelijk, wat twee
belangrijke voordelen biedt: (1) Cross-Task Verbetering: Door gedeelde visuele en
semantische representaties te benutten, verbetert gezamenlijke training de naleving van instructies en
visuele consistentie in zowel onderwerpgestuurde generatie als instructiegebaseerde bewerking. (2) Generalisatie: Leren in een uniform formaat vergemakkelijkt
kennisoverdracht tussen taken, waardoor MIGE kan generaliseren naar nieuwe
compositionele taken, inclusief instructiegebaseerde onderwerpgestuurde bewerking.
Experimenten tonen aan dat MIGE uitblinkt in zowel onderwerpgestuurde generatie als
instructiegebaseerde bewerking, terwijl het een state-of-the-art resultaat behaalt in de nieuwe taak van
instructiegebaseerde onderwerpgestuurde bewerking. Code en model zijn publiekelijk
beschikbaar gesteld op https://github.com/Eureka-Maggie/MIGE.
English
Despite significant progress in diffusion-based image generation,
subject-driven generation and instruction-based editing remain challenging.
Existing methods typically treat them separately, struggling with limited
high-quality data and poor generalization. However, both tasks require
capturing complex visual variations while maintaining consistency between
inputs and outputs. Therefore, we propose MIGE, a unified framework that
standardizes task representations using multimodal instructions. It treats
subject-driven generation as creation on a blank canvas and instruction-based
editing as modification of an existing image, establishing a shared
input-output formulation. MIGE introduces a novel multimodal encoder that maps
free-form multimodal instructions into a unified vision-language space,
integrating visual and semantic features through a feature fusion
mechanism.This unification enables joint training of both tasks, providing two
key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and
semantic representations, joint training improves instruction adherence and
visual consistency in both subject-driven generation and instruction-based
editing. (2) Generalization: Learning in a unified format facilitates
cross-task knowledge transfer, enabling MIGE to generalize to novel
compositional tasks, including instruction-based subject-driven editing.
Experiments show that MIGE excels in both subject-driven generation and
instruction-based editing while setting a state-of-the-art in the new task of
instruction-based subject-driven editing. Code and model have been publicly
available at https://github.com/Eureka-Maggie/MIGE.Summary
AI-Generated Summary