MultiEdit: 多様で挑戦的なタスクにおける指示ベース画像編集の進展
MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks
September 18, 2025
著者: Mingsong Li, Lin Liu, Hongjun Wang, Haoxing Chen, Xijun Gu, Shizhan Liu, Dong Gong, Junbo Zhao, Zhenzhong Lan, Jianguo Li
cs.AI
要旨
現在の指示ベース画像編集(IBIE)手法は、既存のデータセットの編集タイプとサンプル数が限られているため、困難な編集タスクに苦戦しています。さらに、従来のデータセット構築では、ノイズの多い画像とキャプションのペアが含まれることが多く、これがバイアスを導入し、複雑な編集シナリオにおけるモデルの能力を制限する可能性があります。これらの課題に対処するため、我々は107,000以上の高品質な画像編集サンプルを特徴とする包括的なデータセット、MultiEditを導入します。このデータセットは、18の非スタイル転送編集タイプと38のスタイル転送操作を通じて、6つの困難な編集タスクを網羅し、洗練されたスタイル転送から人物参照編集や画像内テキスト編集などの複雑な意味操作まで幅広くカバーしています。我々は、2つのマルチモーダル大規模言語モデル(MLLMs)を活用して視覚適応型編集指示を生成し、高忠実度の編集画像を生成する新しいデータセット構築パイプラインを採用しました。大規模な実験により、我々のMultiEdit-Trainセットで基盤となるオープンソースモデルを微調整することで、提案したMultiEdit-Testベンチマークにおける洗練された編集タスクでのモデルの性能が大幅に向上し、標準的な編集ベンチマークでの能力も効果的に維持されることが示されました。我々は、MultiEditがより多様で困難なIBIE能力の研究を進めるための貴重なリソースを提供すると信じています。我々のデータセットはhttps://huggingface.co/datasets/inclusionAI/MultiEditで利用可能です。
English
Current instruction-based image editing (IBIE) methods struggle with
challenging editing tasks, as both editing types and sample counts of existing
datasets are limited. Moreover, traditional dataset construction often contains
noisy image-caption pairs, which may introduce biases and limit model
capabilities in complex editing scenarios. To address these limitations, we
introduce MultiEdit, a comprehensive dataset featuring over 107K high-quality
image editing samples. It encompasses 6 challenging editing tasks through a
diverse collection of 18 non-style-transfer editing types and 38 style transfer
operations, covering a spectrum from sophisticated style transfer to complex
semantic operations like person reference editing and in-image text editing. We
employ a novel dataset construction pipeline that utilizes two multi-modal
large language models (MLLMs) to generate visual-adaptive editing instructions
and produce high-fidelity edited images, respectively. Extensive experiments
demonstrate that fine-tuning foundational open-source models with our
MultiEdit-Train set substantially improves models' performance on sophisticated
editing tasks in our proposed MultiEdit-Test benchmark, while effectively
preserving their capabilities on the standard editing benchmark. We believe
MultiEdit provides a valuable resource for advancing research into more diverse
and challenging IBIE capabilities. Our dataset is available at
https://huggingface.co/datasets/inclusionAI/MultiEdit.