ChatPaper.aiChatPaper

MIGE: Un Marco Unificado para la Generación y Edición de Imágenes Basadas en Instrucciones Multimodales

MIGE: A Unified Framework for Multimodal Instruction-Based Image Generation and Editing

February 28, 2025
Autores: Xueyun Tian, Wei Li, Bingbing Xu, Yige Yuan, Yuanzhuo Wang, Huawei Shen
cs.AI

Resumen

A pesar de los avances significativos en la generación de imágenes basada en difusión, la generación guiada por sujetos y la edición basada en instrucciones siguen siendo desafiantes. Los métodos existentes suelen tratarlos por separado, enfrentándose a datos de alta calidad limitados y a una pobre generalización. Sin embargo, ambas tareas requieren capturar variaciones visuales complejas mientras se mantiene la consistencia entre las entradas y las salidas. Por lo tanto, proponemos MIGE, un marco unificado que estandariza las representaciones de tareas utilizando instrucciones multimodales. Trata la generación guiada por sujetos como una creación en un lienzo en blanco y la edición basada en instrucciones como una modificación de una imagen existente, estableciendo una formulación compartida de entrada-salida. MIGE introduce un nuevo codificador multimodal que mapea instrucciones multimodales de forma libre en un espacio unificado de visión y lenguaje, integrando características visuales y semánticas a través de un mecanismo de fusión de características. Esta unificación permite el entrenamiento conjunto de ambas tareas, proporcionando dos ventajas clave: (1) Mejora entre tareas: Al aprovechar representaciones visuales y semánticas compartidas, el entrenamiento conjunto mejora la adherencia a las instrucciones y la consistencia visual tanto en la generación guiada por sujetos como en la edición basada en instrucciones. (2) Generalización: El aprendizaje en un formato unificado facilita la transferencia de conocimiento entre tareas, permitiendo que MIGE generalice a tareas composicionales novedosas, incluyendo la edición guiada por sujetos basada en instrucciones. Los experimentos muestran que MIGE sobresale tanto en la generación guiada por sujetos como en la edición basada en instrucciones, estableciendo un estado del arte en la nueva tarea de edición guiada por sujetos basada en instrucciones. El código y el modelo están disponibles públicamente en https://github.com/Eureka-Maggie/MIGE.
English
Despite significant progress in diffusion-based image generation, subject-driven generation and instruction-based editing remain challenging. Existing methods typically treat them separately, struggling with limited high-quality data and poor generalization. However, both tasks require capturing complex visual variations while maintaining consistency between inputs and outputs. Therefore, we propose MIGE, a unified framework that standardizes task representations using multimodal instructions. It treats subject-driven generation as creation on a blank canvas and instruction-based editing as modification of an existing image, establishing a shared input-output formulation. MIGE introduces a novel multimodal encoder that maps free-form multimodal instructions into a unified vision-language space, integrating visual and semantic features through a feature fusion mechanism.This unification enables joint training of both tasks, providing two key advantages: (1) Cross-Task Enhancement: By leveraging shared visual and semantic representations, joint training improves instruction adherence and visual consistency in both subject-driven generation and instruction-based editing. (2) Generalization: Learning in a unified format facilitates cross-task knowledge transfer, enabling MIGE to generalize to novel compositional tasks, including instruction-based subject-driven editing. Experiments show that MIGE excels in both subject-driven generation and instruction-based editing while setting a state-of-the-art in the new task of instruction-based subject-driven editing. Code and model have been publicly available at https://github.com/Eureka-Maggie/MIGE.

Summary

AI-Generated Summary

PDF52March 3, 2025