ChatPaper.aiChatPaper

MultiEdit: Avançando na Edição de Imagens Baseada em Instruções para Tarefas Diversas e Desafiadoras

MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

September 18, 2025
Autores: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
cs.AI

Resumo

Os métodos atuais de edição de imagens baseada em instruções (IBIE) enfrentam dificuldades com tarefas de edição desafiadoras, pois tanto os tipos de edição quanto a quantidade de amostras nos conjuntos de dados existentes são limitados. Além disso, a construção tradicional de conjuntos de dados frequentemente contém pares de imagem-legenda ruidosos, o que pode introduzir vieses e limitar as capacidades dos modelos em cenários de edição complexos. Para abordar essas limitações, apresentamos o MultiEdit, um conjunto de dados abrangente que contém mais de 107 mil amostras de edição de imagens de alta qualidade. Ele abrange 6 tarefas de edição desafiadoras por meio de uma coleção diversificada de 18 tipos de edição que não envolvem transferência de estilo e 38 operações de transferência de estilo, cobrindo um espectro que vai desde transferência de estilo sofisticada até operações semânticas complexas, como edição de referência de pessoas e edição de texto dentro da imagem. Empregamos um pipeline inovador de construção de conjuntos de dados que utiliza dois modelos de linguagem multimodal de grande escala (MLLMs) para gerar instruções de edição visualmente adaptáveis e produzir imagens editadas com alta fidelidade, respectivamente. Experimentos extensivos demonstram que o ajuste fino de modelos fundamentais de código aberto com nosso conjunto MultiEdit-Train melhora substancialmente o desempenho dos modelos em tarefas de edição sofisticadas em nosso benchmark proposto MultiEdit-Test, enquanto preserva efetivamente suas capacidades no benchmark de edição padrão. Acreditamos que o MultiEdit fornece um recurso valioso para avançar a pesquisa em capacidades de IBIE mais diversas e desafiadoras. Nosso conjunto de dados está disponível em https://huggingface.co/datasets/inclusionAI/MultiEdit.
English
Current instruction-based image editing (IBIE) methods struggle with challenging editing tasks, as both editing types and sample counts of existing datasets are limited. Moreover, traditional dataset construction often contains noisy image-caption pairs, which may introduce biases and limit model capabilities in complex editing scenarios. To address these limitations, we introduce MultiEdit, a comprehensive dataset featuring over 107K high-quality image editing samples. It encompasses 6 challenging editing tasks through a diverse collection of 18 non-style-transfer editing types and 38 style transfer operations, covering a spectrum from sophisticated style transfer to complex semantic operations like person reference editing and in-image text editing. We employ a novel dataset construction pipeline that utilizes two multi-modal large language models (MLLMs) to generate visual-adaptive editing instructions and produce high-fidelity edited images, respectively. Extensive experiments demonstrate that fine-tuning foundational open-source models with our MultiEdit-Train set substantially improves models' performance on sophisticated editing tasks in our proposed MultiEdit-Test benchmark, while effectively preserving their capabilities on the standard editing benchmark. We believe MultiEdit provides a valuable resource for advancing research into more diverse and challenging IBIE capabilities. Our dataset is available at https://huggingface.co/datasets/inclusionAI/MultiEdit.
PDF112September 19, 2025