ChatPaper.aiChatPaper

MultiEdit : Faire progresser l'édition d'images basée sur des instructions pour des tâches variées et complexes

MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

September 18, 2025
papers.authors: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
cs.AI

papers.abstract

Les méthodes actuelles d'édition d'images basées sur des instructions (IBIE) rencontrent des difficultés face à des tâches d'édition complexes, car les types d'édition et le nombre d'échantillons des jeux de données existants sont limités. De plus, la construction traditionnelle des jeux de données inclut souvent des paires image-légende bruitées, ce qui peut introduire des biais et limiter les capacités des modèles dans des scénarios d'édition complexes. Pour surmonter ces limitations, nous présentons MultiEdit, un jeu de données complet comprenant plus de 107 000 échantillons d'édition d'images de haute qualité. Il englobe 6 tâches d'édition difficiles à travers une collection variée de 18 types d'édition non liés au transfert de style et 38 opérations de transfert de style, couvrant un spectre allant du transfert de style sophistiqué à des opérations sémantiques complexes comme l'édition de référence de personnes et l'édition de texte dans l'image. Nous utilisons un pipeline innovant de construction de jeux de données qui exploite deux modèles de langage multimodaux (MLLMs) pour générer des instructions d'édition adaptées visuellement et produire des images éditées de haute fidélité, respectivement. Des expériences approfondies démontrent que l'affinement de modèles open-source de base avec notre ensemble MultiEdit-Train améliore considérablement les performances des modèles sur des tâches d'édition sophistiquées dans notre benchmark MultiEdit-Test proposé, tout en préservant efficacement leurs capacités sur le benchmark d'édition standard. Nous croyons que MultiEdit constitue une ressource précieuse pour faire progresser la recherche vers des capacités IBIE plus diversifiées et plus exigeantes. Notre jeu de données est disponible à l'adresse suivante : https://huggingface.co/datasets/inclusionAI/MultiEdit.
English
Current instruction-based image editing (IBIE) methods struggle with challenging editing tasks, as both editing types and sample counts of existing datasets are limited. Moreover, traditional dataset construction often contains noisy image-caption pairs, which may introduce biases and limit model capabilities in complex editing scenarios. To address these limitations, we introduce MultiEdit, a comprehensive dataset featuring over 107K high-quality image editing samples. It encompasses 6 challenging editing tasks through a diverse collection of 18 non-style-transfer editing types and 38 style transfer operations, covering a spectrum from sophisticated style transfer to complex semantic operations like person reference editing and in-image text editing. We employ a novel dataset construction pipeline that utilizes two multi-modal large language models (MLLMs) to generate visual-adaptive editing instructions and produce high-fidelity edited images, respectively. Extensive experiments demonstrate that fine-tuning foundational open-source models with our MultiEdit-Train set substantially improves models' performance on sophisticated editing tasks in our proposed MultiEdit-Test benchmark, while effectively preserving their capabilities on the standard editing benchmark. We believe MultiEdit provides a valuable resource for advancing research into more diverse and challenging IBIE capabilities. Our dataset is available at https://huggingface.co/datasets/inclusionAI/MultiEdit.
PDF112September 19, 2025