ChatPaper.aiChatPaper

MultiEdit: 다양한 도전 과제에서의 지시 기반 이미지 편집 기술 발전

MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

September 18, 2025
저자: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
cs.AI

초록

현재의 지시 기반 이미지 편집(IBIE) 방법들은 기존 데이터셋의 편집 유형과 샘플 수가 제한적이어서 어려운 편집 작업에 어려움을 겪고 있습니다. 더욱이, 전통적인 데이터셋 구축 방식은 노이즈가 포함된 이미지-캡션 쌍을 포함할 수 있어 편향을 유발하고 복잡한 편집 시나리오에서 모델의 성능을 제한할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 107,000개 이상의 고품질 이미지 편집 샘플을 포함한 MultiEdit 데이터셋을 소개합니다. 이 데이터셋은 18가지의 다양한 비스타일 전송 편집 유형과 38가지의 스타일 전송 작업을 통해 6가지의 도전적인 편집 작업을 다루며, 정교한 스타일 전송부터 사람 참조 편집 및 이미지 내 텍스트 편집과 같은 복잡한 의미론적 작업까지 다양한 스펙트럼을 포함합니다. 우리는 두 개의 다중 모달 대형 언어 모델(MLLMs)을 활용하여 시각적으로 적응 가능한 편집 지시를 생성하고 고품질의 편집된 이미지를 생성하는 새로운 데이터셋 구축 파이프라인을 사용했습니다. 광범위한 실험을 통해, 우리의 MultiEdit-Train 세트로 기초 오픈소스 모델을 미세 조정하면 제안된 MultiEdit-Test 벤치마크에서 정교한 편집 작업에서 모델의 성능이 크게 향상되며, 표준 편집 벤치마크에서의 성능도 효과적으로 유지됨을 입증했습니다. 우리는 MultiEdit이 더 다양하고 도전적인 IBIE 능력 연구를 진전시키는 데 유용한 자원이 될 것이라고 믿습니다. 우리의 데이터셋은 https://huggingface.co/datasets/inclusionAI/MultiEdit에서 이용 가능합니다.
English
Current instruction-based image editing (IBIE) methods struggle with challenging editing tasks, as both editing types and sample counts of existing datasets are limited. Moreover, traditional dataset construction often contains noisy image-caption pairs, which may introduce biases and limit model capabilities in complex editing scenarios. To address these limitations, we introduce MultiEdit, a comprehensive dataset featuring over 107K high-quality image editing samples. It encompasses 6 challenging editing tasks through a diverse collection of 18 non-style-transfer editing types and 38 style transfer operations, covering a spectrum from sophisticated style transfer to complex semantic operations like person reference editing and in-image text editing. We employ a novel dataset construction pipeline that utilizes two multi-modal large language models (MLLMs) to generate visual-adaptive editing instructions and produce high-fidelity edited images, respectively. Extensive experiments demonstrate that fine-tuning foundational open-source models with our MultiEdit-Train set substantially improves models' performance on sophisticated editing tasks in our proposed MultiEdit-Test benchmark, while effectively preserving their capabilities on the standard editing benchmark. We believe MultiEdit provides a valuable resource for advancing research into more diverse and challenging IBIE capabilities. Our dataset is available at https://huggingface.co/datasets/inclusionAI/MultiEdit.
PDF112September 19, 2025