MIGE: Um Framework Unificado para Geração e Edição de Imagens Baseadas em Instruções Multimodais
MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing
February 28, 2025
Autores: Xueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen
cs.AI
Resumo
Apesar dos avanços significativos na geração de imagens baseada em difusão, a geração orientada por sujeitos e a edição baseada em instruções continuam desafiadoras. Os métodos existentes geralmente tratam essas tarefas separadamente, enfrentando dificuldades com dados de alta qualidade limitados e generalização insuficiente. No entanto, ambas as tarefas exigem a captura de variações visuais complexas enquanto mantêm a consistência entre entradas e saídas. Portanto, propomos o MIGE, um framework unificado que padroniza as representações de tarefas usando instruções multimodais. Ele trata a geração orientada por sujeitos como a criação em uma tela em branco e a edição baseada em instruções como a modificação de uma imagem existente, estabelecendo uma formulação compartilhada de entrada-saída. O MIGE introduz um novo codificador multimodal que mapeia instruções multimodais de forma livre para um espaço unificado de visão e linguagem, integrando características visuais e semânticas por meio de um mecanismo de fusão de características. Essa unificação permite o treinamento conjunto de ambas as tarefas, oferecendo duas vantagens principais: (1) Melhoria Cruzada entre Tarefas: Ao aproveitar representações visuais e semânticas compartilhadas, o treinamento conjunto melhora a aderência às instruções e a consistência visual tanto na geração orientada por sujeitos quanto na edição baseada em instruções. (2) Generalização: A aprendizagem em um formato unificado facilita a transferência de conhecimento entre tarefas, permitindo que o MIGE generalize para novas tarefas composicionais, incluindo a edição orientada por sujeitos baseada em instruções. Experimentos mostram que o MIGE se destaca tanto na geração orientada por sujeitos quanto na edição baseada em instruções, estabelecendo um estado da arte na nova tarefa de edição orientada por sujeitos baseada em instruções. O código e o modelo estão disponíveis publicamente em https://github.com/Eureka-Maggie/MIGE.
English
Despite significant progress in diffusion-based image generation,
subject-driven generation and instruction-based editing remain challenging.
Existing methods typically treat them separately, struggling with limited
high-quality data and poor generalization. However, both tasks require
capturing complex visual variations while maintaining consistency between
inputs and outputs. Therefore, we propose MIGE, a unified framework that
standardizes task representations using multimodal instructions. It treats
subject-driven generation as creation on a blank canvas and instruction-based
editing as modification of an existing image, establishing a shared
input-output formulation. MIGE introduces a novel multimodal encoder that maps
free-form multimodal instructions into a unified vision-language space,
integrating visual and semantic features through a feature fusion
mechanism.This unification enables joint training of both tasks, providing two
key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and
semantic representations, joint training improves instruction adherence and
visual consistency in both subject-driven generation and instruction-based
editing. (2) Generalization: Learning in a unified format facilitates
cross-task knowledge transfer, enabling MIGE to generalize to novel
compositional tasks, including instruction-based subject-driven editing.
Experiments show that MIGE excels in both subject-driven generation and
instruction-based editing while setting a state-of-the-art in the new task of
instruction-based subject-driven editing. Code and model have been publicly
available at https://github.com/Eureka-Maggie/MIGE.Summary
AI-Generated Summary