MIGE: Um Framework Unificado para Geração e Edição de Imagens Baseadas em Instruções Multimodais

Resumo

Apesar dos avanços significativos na geração de imagens baseada em difusão, a geração orientada por sujeitos e a edição baseada em instruções continuam desafiadoras. Os métodos existentes geralmente tratam essas tarefas separadamente, enfrentando dificuldades com dados de alta qualidade limitados e generalização insuficiente. No entanto, ambas as tarefas exigem a captura de variações visuais complexas enquanto mantêm a consistência entre entradas e saídas. Portanto, propomos o MIGE, um framework unificado que padroniza as representações de tarefas usando instruções multimodais. Ele trata a geração orientada por sujeitos como a criação em uma tela em branco e a edição baseada em instruções como a modificação de uma imagem existente, estabelecendo uma formulação compartilhada de entrada-saída. O MIGE introduz um novo codificador multimodal que mapeia instruções multimodais de forma livre para um espaço unificado de visão e linguagem, integrando características visuais e semânticas por meio de um mecanismo de fusão de características. Essa unificação permite o treinamento conjunto de ambas as tarefas, oferecendo duas vantagens principais: (1) Melhoria Cruzada entre Tarefas: Ao aproveitar representações visuais e semânticas compartilhadas, o treinamento conjunto melhora a aderência às instruções e a consistência visual tanto na geração orientada por sujeitos quanto na edição baseada em instruções. (2) Generalização: A aprendizagem em um formato unificado facilita a transferência de conhecimento entre tarefas, permitindo que o MIGE generalize para novas tarefas composicionais, incluindo a edição orientada por sujeitos baseada em instruções. Experimentos mostram que o MIGE se destaca tanto na geração orientada por sujeitos quanto na edição baseada em instruções, estabelecendo um estado da arte na nova tarefa de edição orientada por sujeitos baseada em instruções. O código e o modelo estão disponíveis publicamente em https://github.com/Eureka-Maggie/MIGE.

English

Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism.This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.

MIGE: Um Framework Unificado para Geração e Edição de Imagens Baseadas em Instruções Multimodais

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

Resumo

Support