MIGE: Ein einheitliches Framework für multimodale, instruktionsbasierte Bildgenerierung und -bearbeitung
MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing
February 28, 2025
Autoren: Xueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen
cs.AI
Zusammenfassung
Trotz bedeutender Fortschritte bei der diffusionsbasierten Bildgenerierung bleiben subjektgetriebene Generierung und anweisungsbasierte Bearbeitung herausfordernd. Bestehende Methoden behandeln sie typischerweise separat und kämpfen mit begrenzten hochwertigen Daten und schlechter Generalisierung. Beide Aufgaben erfordern jedoch die Erfassung komplexer visueller Variationen bei gleichzeitiger Wahrung der Konsistenz zwischen Eingaben und Ausgaben. Daher schlagen wir MIGE vor, ein einheitliches Framework, das Aufgabenrepräsentationen durch multimodale Anweisungen standardisiert. Es behandelt subjektgetriebene Generierung als Erstellung auf einer leeren Leinwand und anweisungsbasierte Bearbeitung als Modifikation eines bestehenden Bildes, wodurch eine gemeinsame Eingabe-Ausgabe-Formulierung etabliert wird. MIGE führt einen neuartigen multimodalen Encoder ein, der freiformulierte multimodale Anweisungen in einen einheitlichen Vision-Sprache-Raum abbildet und visuelle und semantische Merkmale durch einen Feature-Fusion-Mechanismus integriert. Diese Vereinheitlichung ermöglicht das gemeinsame Training beider Aufgaben und bietet zwei wesentliche Vorteile: (1) Aufgabenübergreifende Verbesserung: Durch die Nutzung gemeinsamer visueller und semantischer Repräsentationen verbessert das gemeinsame Training die Anweisungsbefolgung und visuelle Konsistenz sowohl bei der subjektgetriebenen Generierung als auch bei der anweisungsbasierten Bearbeitung. (2) Generalisierung: Das Lernen in einem einheitlichen Format erleichtert den Wissenstransfer zwischen Aufgaben, wodurch MIGE in der Lage ist, sich auf neuartige kompositionelle Aufgaben zu verallgemeinern, einschließlich anweisungsbasierter subjektgetriebener Bearbeitung. Experimente zeigen, dass MIGE sowohl in der subjektgetriebenen Generierung als auch in der anweisungsbasierten Bearbeitung hervorragende Leistungen erzielt und gleichzeitig einen State-of-the-Art in der neuen Aufgabe der anweisungsbasierten subjektgetriebenen Bearbeitung setzt. Code und Modell sind öffentlich unter https://github.com/Eureka-Maggie/MIGE verfügbar.
English
Despite significant progress in diffusion-based image generation,
subject-driven generation and instruction-based editing remain challenging.
Existing methods typically treat them separately, struggling with limited
high-quality data and poor generalization. However, both tasks require
capturing complex visual variations while maintaining consistency between
inputs and outputs. Therefore, we propose MIGE, a unified framework that
standardizes task representations using multimodal instructions. It treats
subject-driven generation as creation on a blank canvas and instruction-based
editing as modification of an existing image, establishing a shared
input-output formulation. MIGE introduces a novel multimodal encoder that maps
free-form multimodal instructions into a unified vision-language space,
integrating visual and semantic features through a feature fusion
mechanism.This unification enables joint training of both tasks, providing two
key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and
semantic representations, joint training improves instruction adherence and
visual consistency in both subject-driven generation and instruction-based
editing. (2) Generalization: Learning in a unified format facilitates
cross-task knowledge transfer, enabling MIGE to generalize to novel
compositional tasks, including instruction-based subject-driven editing.
Experiments show that MIGE excels in both subject-driven generation and
instruction-based editing while setting a state-of-the-art in the new task of
instruction-based subject-driven editing. Code and model have been publicly
available at https://github.com/Eureka-Maggie/MIGE.Summary
AI-Generated Summary