ChatPaper.aiChatPaper

MIGE: Un Framework Unificato per la Generazione e Modifica di Immagini Basata su Istruzioni Multimodali

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

February 28, 2025
Autori: Xueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen
cs.AI

Abstract

Nonostante i significativi progressi nella generazione di immagini basata su diffusione, la generazione guidata da soggetti e la modifica basata su istruzioni rimangono sfide complesse. I metodi esistenti tendono a trattarle separatamente, affrontando difficoltà legate alla limitata disponibilità di dati di alta qualità e alla scarsa generalizzazione. Tuttavia, entrambe le attività richiedono la cattura di variazioni visive complesse mantenendo la coerenza tra input e output. Pertanto, proponiamo MIGE, un framework unificato che standardizza le rappresentazioni delle attività utilizzando istruzioni multimodali. Tratta la generazione guidata da soggetti come una creazione su una tela vuota e la modifica basata su istruzioni come una modifica di un'immagine esistente, stabilendo una formulazione condivisa di input-output. MIGE introduce un nuovo encoder multimodale che mappa istruzioni multimodali in formato libero in uno spazio unificato visione-linguaggio, integrando caratteristiche visive e semantiche attraverso un meccanismo di fusione delle feature. Questa unificazione consente l'addestramento congiunto di entrambe le attività, offrendo due vantaggi chiave: (1) Miglioramento Cross-Task: Sfruttando rappresentazioni visive e semantiche condivise, l'addestramento congiunto migliora l'aderenza alle istruzioni e la coerenza visiva sia nella generazione guidata da soggetti che nella modifica basata su istruzioni. (2) Generalizzazione: L'apprendimento in un formato unificato facilita il trasferimento di conoscenze cross-task, consentendo a MIGE di generalizzare a nuove attività compositive, inclusa la modifica guidata da soggetti basata su istruzioni. Gli esperimenti dimostrano che MIGE eccelle sia nella generazione guidata da soggetti che nella modifica basata su istruzioni, stabilendo uno stato dell'arte nella nuova attività di modifica guidata da soggetti basata su istruzioni. Codice e modello sono stati resi pubblicamente disponibili su https://github.com/Eureka-Maggie/MIGE.
English
Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism.This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.

Summary

AI-Generated Summary

PDF52March 3, 2025