MultiEdit: Progressi nell'editing di immagini basato su istruzioni per compiti diversificati e complessi
MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks
September 18, 2025
Autori: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
cs.AI
Abstract
I metodi attuali di editing di immagini basati su istruzioni (IBIE) incontrano difficoltà con compiti di editing complessi, poiché sia i tipi di editing che il numero di campioni nei dataset esistenti sono limitati. Inoltre, la costruzione tradizionale dei dataset spesso include coppie immagine-didascalia rumorose, che possono introdurre distorsioni e limitare le capacità del modello in scenari di editing complessi. Per affrontare queste limitazioni, introduciamo MultiEdit, un dataset completo che presenta oltre 107K campioni di editing di immagini di alta qualità. Esso comprende 6 compiti di editing impegnativi attraverso una raccolta diversificata di 18 tipi di editing non legati al trasferimento di stile e 38 operazioni di trasferimento di stile, coprendo uno spettro che va dal trasferimento di stile sofisticato a operazioni semantiche complesse come l'editing di riferimenti a persone e l'editing di testo all'interno dell'immagine. Utilizziamo una pipeline innovativa per la costruzione del dataset che sfrutta due modelli linguistici multimodali di grandi dimensioni (MLLMs) per generare istruzioni di editing adattate visivamente e produrre immagini modificate ad alta fedeltà, rispettivamente. Esperimenti estesi dimostrano che il fine-tuning di modelli open-source di base con il nostro set MultiEdit-Train migliora significativamente le prestazioni dei modelli su compiti di editing sofisticati nel nostro benchmark MultiEdit-Test proposto, preservando efficacemente le loro capacità sul benchmark di editing standard. Crediamo che MultiEdit fornisca una risorsa preziosa per avanzare la ricerca verso capacità IBIE più diversificate e impegnative. Il nostro dataset è disponibile all'indirizzo https://huggingface.co/datasets/inclusionAI/MultiEdit.
English
Current instruction-based image editing (IBIE) methods struggle with
challenging editing tasks, as both editing types and sample counts of existing
datasets are limited. Moreover, traditional dataset construction often contains
noisy image-caption pairs, which may introduce biases and limit model
capabilities in complex editing scenarios. To address these limitations, we
introduce MultiEdit, a comprehensive dataset featuring over 107K high-quality
image editing samples. It encompasses 6 challenging editing tasks through a
diverse collection of 18 non-style-transfer editing types and 38 style transfer
operations, covering a spectrum from sophisticated style transfer to complex
semantic operations like person reference editing and in-image text editing. We
employ a novel dataset construction pipeline that utilizes two multi-modal
large language models (MLLMs) to generate visual-adaptive editing instructions
and produce high-fidelity edited images, respectively. Extensive experiments
demonstrate that fine-tuning foundational open-source models with our
MultiEdit-Train set substantially improves models' performance on sophisticated
editing tasks in our proposed MultiEdit-Test benchmark, while effectively
preserving their capabilities on the standard editing benchmark. We believe
MultiEdit provides a valuable resource for advancing research into more diverse
and challenging IBIE capabilities. Our dataset is available at
https://huggingface.co/datasets/inclusionAI/MultiEdit.