MIGE : Un cadre unifié pour la génération et l'édition d'images basées sur des instructions multimodales

papers.abstract

Malgré des progrès significatifs dans la génération d'images basée sur la diffusion, la génération pilotée par un sujet et l'édition basée sur des instructions restent des défis majeurs. Les méthodes existantes les traitent généralement séparément, peinant avec des données de haute qualité limitées et une mauvaise généralisation. Cependant, ces deux tâches nécessitent de capturer des variations visuelles complexes tout en maintenant une cohérence entre les entrées et les sorties. Par conséquent, nous proposons MIGE, un cadre unifié qui standardise les représentations des tâches en utilisant des instructions multimodales. Il traite la génération pilotée par un sujet comme une création sur une toile vierge et l'édition basée sur des instructions comme une modification d'une image existante, établissant ainsi une formulation commune entrée-sortie. MIGE introduit un nouvel encodeur multimodal qui mappe des instructions multimodales libres dans un espace unifié vision-langage, intégrant des caractéristiques visuelles et sémantiques grâce à un mécanisme de fusion de caractéristiques. Cette unification permet un entraînement conjoint des deux tâches, offrant deux avantages clés : (1) Amélioration inter-tâches : En exploitant des représentations visuelles et sémantiques partagées, l'entraînement conjoint améliore l'adhésion aux instructions et la cohérence visuelle dans la génération pilotée par un sujet et l'édition basée sur des instructions. (2) Généralisation : L'apprentissage dans un format unifié facilite le transfert de connaissances inter-tâches, permettant à MIGE de généraliser à de nouvelles tâches compositionnelles, y compris l'édition pilotée par un sujet basée sur des instructions. Les expériences montrent que MIGE excelle à la fois dans la génération pilotée par un sujet et l'édition basée sur des instructions, tout en établissant un état de l'art dans la nouvelle tâche d'édition pilotée par un sujet basée sur des instructions. Le code et le modèle sont disponibles publiquement à l'adresse https://github.com/Eureka-Maggie/MIGE.

English

Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism.This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.

MIGE : Un cadre unifié pour la génération et l'édition d'images basées sur des instructions multimodales

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

papers.abstract

Support