MultiEdit: Avanzando en la edición de imágenes basada en instrucciones para tareas diversas y desafiantes
MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks
September 18, 2025
Autores: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
cs.AI
Resumen
Los métodos actuales de edición de imágenes basados en instrucciones (IBIE, por sus siglas en inglés) enfrentan dificultades en tareas de edición desafiantes, ya que tanto los tipos de edición como el número de muestras en los conjuntos de datos existentes son limitados. Además, la construcción tradicional de conjuntos de datos a menudo incluye pares de imágenes y descripciones ruidosos, lo que puede introducir sesgos y limitar las capacidades del modelo en escenarios de edición complejos. Para abordar estas limitaciones, presentamos MultiEdit, un conjunto de datos integral que incluye más de 107K muestras de edición de imágenes de alta calidad. Este abarca 6 tareas de edición desafiantes a través de una colección diversa de 18 tipos de edición que no son transferencia de estilo y 38 operaciones de transferencia de estilo, cubriendo un espectro que va desde transferencias de estilo sofisticadas hasta operaciones semánticas complejas, como la edición de referencias de personas y la edición de texto dentro de imágenes. Empleamos una novedosa pipeline de construcción de conjuntos de datos que utiliza dos modelos de lenguaje multimodal de gran escala (MLLMs) para generar instrucciones de edición visualmente adaptativas y producir imágenes editadas de alta fidelidad, respectivamente. Experimentos exhaustivos demuestran que el ajuste fino de modelos de código abierto fundamentales con nuestro conjunto MultiEdit-Train mejora sustancialmente el rendimiento de los modelos en tareas de edición sofisticadas en nuestro benchmark propuesto MultiEdit-Test, al mismo tiempo que preserva eficazmente sus capacidades en el benchmark de edición estándar. Creemos que MultiEdit proporciona un recurso valioso para avanzar en la investigación de capacidades IBIE más diversas y desafiantes. Nuestro conjunto de datos está disponible en https://huggingface.co/datasets/inclusionAI/MultiEdit.
English
Current instruction-based image editing (IBIE) methods struggle with
challenging editing tasks, as both editing types and sample counts of existing
datasets are limited. Moreover, traditional dataset construction often contains
noisy image-caption pairs, which may introduce biases and limit model
capabilities in complex editing scenarios. To address these limitations, we
introduce MultiEdit, a comprehensive dataset featuring over 107K high-quality
image editing samples. It encompasses 6 challenging editing tasks through a
diverse collection of 18 non-style-transfer editing types and 38 style transfer
operations, covering a spectrum from sophisticated style transfer to complex
semantic operations like person reference editing and in-image text editing. We
employ a novel dataset construction pipeline that utilizes two multi-modal
large language models (MLLMs) to generate visual-adaptive editing instructions
and produce high-fidelity edited images, respectively. Extensive experiments
demonstrate that fine-tuning foundational open-source models with our
MultiEdit-Train set substantially improves models' performance on sophisticated
editing tasks in our proposed MultiEdit-Test benchmark, while effectively
preserving their capabilities on the standard editing benchmark. We believe
MultiEdit provides a valuable resource for advancing research into more diverse
and challenging IBIE capabilities. Our dataset is available at
https://huggingface.co/datasets/inclusionAI/MultiEdit.