MIGE : Un cadre unifié pour la génération et l'édition d'images basées sur des instructions multimodales
MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing
February 28, 2025
Auteurs: Xueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen
cs.AI
Résumé
Malgré des progrès significatifs dans la génération d'images basée sur la diffusion, la génération pilotée par un sujet et l'édition basée sur des instructions restent des défis majeurs. Les méthodes existantes les traitent généralement séparément, peinant avec des données de haute qualité limitées et une mauvaise généralisation. Cependant, ces deux tâches nécessitent de capturer des variations visuelles complexes tout en maintenant une cohérence entre les entrées et les sorties. Par conséquent, nous proposons MIGE, un cadre unifié qui standardise les représentations des tâches en utilisant des instructions multimodales. Il traite la génération pilotée par un sujet comme une création sur une toile vierge et l'édition basée sur des instructions comme une modification d'une image existante, établissant ainsi une formulation commune entrée-sortie. MIGE introduit un nouvel encodeur multimodal qui mappe des instructions multimodales libres dans un espace unifié vision-langage, intégrant des caractéristiques visuelles et sémantiques grâce à un mécanisme de fusion de caractéristiques. Cette unification permet un entraînement conjoint des deux tâches, offrant deux avantages clés : (1) Amélioration inter-tâches : En exploitant des représentations visuelles et sémantiques partagées, l'entraînement conjoint améliore l'adhésion aux instructions et la cohérence visuelle dans la génération pilotée par un sujet et l'édition basée sur des instructions. (2) Généralisation : L'apprentissage dans un format unifié facilite le transfert de connaissances inter-tâches, permettant à MIGE de généraliser à de nouvelles tâches compositionnelles, y compris l'édition pilotée par un sujet basée sur des instructions. Les expériences montrent que MIGE excelle à la fois dans la génération pilotée par un sujet et l'édition basée sur des instructions, tout en établissant un état de l'art dans la nouvelle tâche d'édition pilotée par un sujet basée sur des instructions. Le code et le modèle sont disponibles publiquement à l'adresse https://github.com/Eureka-Maggie/MIGE.
English
Despite significant progress in diffusion-based image generation,
subject-driven generation and instruction-based editing remain challenging.
Existing methods typically treat them separately, struggling with limited
high-quality data and poor generalization. However, both tasks require
capturing complex visual variations while maintaining consistency between
inputs and outputs. Therefore, we propose MIGE, a unified framework that
standardizes task representations using multimodal instructions. It treats
subject-driven generation as creation on a blank canvas and instruction-based
editing as modification of an existing image, establishing a shared
input-output formulation. MIGE introduces a novel multimodal encoder that maps
free-form multimodal instructions into a unified vision-language space,
integrating visual and semantic features through a feature fusion
mechanism.This unification enables joint training of both tasks, providing two
key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and
semantic representations, joint training improves instruction adherence and
visual consistency in both subject-driven generation and instruction-based
editing. (2) Generalization: Learning in a unified format facilitates
cross-task knowledge transfer, enabling MIGE to generalize to novel
compositional tasks, including instruction-based subject-driven editing.
Experiments show that MIGE excels in both subject-driven generation and
instruction-based editing while setting a state-of-the-art in the new task of
instruction-based subject-driven editing. Code and model have been publicly
available at https://github.com/Eureka-Maggie/MIGE.Summary
AI-Generated Summary