ChatPaper.aiChatPaper

MultiEdit: Vooruitgang in instructiegebaseerde beeldbewerking op diverse en uitdagende taken

MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

September 18, 2025
Auteurs: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
cs.AI

Samenvatting

Huidige methoden voor beeldbewerking op basis van instructies (IBIE) hebben moeite met uitdagende bewerkingstaken, omdat zowel de bewerkingstypen als het aantal voorbeelden in bestaande datasets beperkt zijn. Bovendien bevat de traditionele constructie van datasets vaak ruis in beeld-bijschriftparen, wat vooroordelen kan introduceren en de mogelijkheden van modellen in complexe bewerkingsscenario's kan beperken. Om deze beperkingen aan te pakken, introduceren we MultiEdit, een uitgebreide dataset met meer dan 107K hoogwaardige beeldbewerkingsvoorbeelden. Het omvat 6 uitdagende bewerkingstaken via een diverse verzameling van 18 niet-stijloverdrachtbewerkingstypen en 38 stijloverdrachtoperaties, die een spectrum bestrijken van geavanceerde stijloverdracht tot complexe semantische operaties zoals persoonreferentiebewerking en tekstbewerking in afbeeldingen. We gebruiken een innovatieve datasetconstructiepipeline die twee multimodale grote taalmodellen (MLLMs) inzet om visueel-adaptieve bewerkingsinstructies te genereren en respectievelijk hoogwaardige bewerkte afbeeldingen te produceren. Uitgebreide experimenten tonen aan dat het finetunen van fundamentele open-source modellen met onze MultiEdit-Train set de prestaties van modellen aanzienlijk verbetert op geavanceerde bewerkingstaken in onze voorgestelde MultiEdit-Test benchmark, terwijl hun mogelijkheden op de standaard bewerkingsbenchmark effectief behouden blijven. Wij geloven dat MultiEdit een waardevolle bron biedt voor het bevorderen van onderzoek naar meer diverse en uitdagende IBIE-mogelijkheden. Onze dataset is beschikbaar op https://huggingface.co/datasets/inclusionAI/MultiEdit.
English
Current instruction-based image editing (IBIE) methods struggle with challenging editing tasks, as both editing types and sample counts of existing datasets are limited. Moreover, traditional dataset construction often contains noisy image-caption pairs, which may introduce biases and limit model capabilities in complex editing scenarios. To address these limitations, we introduce MultiEdit, a comprehensive dataset featuring over 107K high-quality image editing samples. It encompasses 6 challenging editing tasks through a diverse collection of 18 non-style-transfer editing types and 38 style transfer operations, covering a spectrum from sophisticated style transfer to complex semantic operations like person reference editing and in-image text editing. We employ a novel dataset construction pipeline that utilizes two multi-modal large language models (MLLMs) to generate visual-adaptive editing instructions and produce high-fidelity edited images, respectively. Extensive experiments demonstrate that fine-tuning foundational open-source models with our MultiEdit-Train set substantially improves models' performance on sophisticated editing tasks in our proposed MultiEdit-Test benchmark, while effectively preserving their capabilities on the standard editing benchmark. We believe MultiEdit provides a valuable resource for advancing research into more diverse and challenging IBIE capabilities. Our dataset is available at https://huggingface.co/datasets/inclusionAI/MultiEdit.
PDF112September 19, 2025