MagicBrush: 指示に基づく画像編集のための手動注釈データセット
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing
June 16, 2023
著者: Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su
cs.AI
要旨
テキストガイドによる画像編集は、個人利用からPhotoshopのような専門的なアプリケーションまで、日常生活において広く必要とされています。しかし、既存の手法はゼロショットか、自動的に合成されたデータセットで学習されており、そのデータセットには大量のノイズが含まれています。そのため、実際に望ましい結果を得るためには、多くの手動調整が必要です。この問題を解決するため、私たちはMagicBrush(https://osu-nlp-group.github.io/MagicBrush/)を紹介します。これは、シングルターン、マルチターン、マスク提供、マスクフリーといった多様なシナリオをカバーする、初の大規模な手動アノテーションによる指示ガイド付き実画像編集データセットです。MagicBrushは、10,000以上の手動アノテーションされたトリプル(ソース画像、指示、ターゲット画像)で構成されており、大規模なテキストガイド付き画像編集モデルの学習をサポートします。私たちはInstructPix2PixをMagicBrushでファインチューニングし、新しいモデルが人間評価においてはるかに優れた画像を生成できることを示します。さらに、定量的、定性的、人間評価を含む多角的な観点から、現在の画像編集ベースラインを評価するための広範な実験を行います。その結果、私たちのデータセットの挑戦的な性質と、現在のベースラインと現実世界の編集ニーズとのギャップが明らかになります。
English
Text-guided image editing is widely needed in daily life, ranging from
personal use to professional applications such as Photoshop. However, existing
methods are either zero-shot or trained on an automatically synthesized
dataset, which contains a high volume of noise. Thus, they still require lots
of manual tuning to produce desirable outcomes in practice. To address this
issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/),
the first large-scale, manually annotated dataset for instruction-guided real
image editing that covers diverse scenarios: single-turn, multi-turn,
mask-provided, and mask-free editing. MagicBrush comprises over 10K manually
annotated triples (source image, instruction, target image), which supports
trainining large-scale text-guided image editing models. We fine-tune
InstructPix2Pix on MagicBrush and show that the new model can produce much
better images according to human evaluation. We further conduct extensive
experiments to evaluate current image editing baselines from multiple
dimensions including quantitative, qualitative, and human evaluations. The
results reveal the challenging nature of our dataset and the gap between
current baselines and real-world editing needs.