ChatPaper.aiChatPaper

MagicBrush: 指示に基づく画像編集のための手動注釈データセット

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

June 16, 2023
著者: Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su
cs.AI

要旨

テキストガイドによる画像編集は、個人利用からPhotoshopのような専門的なアプリケーションまで、日常生活において広く必要とされています。しかし、既存の手法はゼロショットか、自動的に合成されたデータセットで学習されており、そのデータセットには大量のノイズが含まれています。そのため、実際に望ましい結果を得るためには、多くの手動調整が必要です。この問題を解決するため、私たちはMagicBrush(https://osu-nlp-group.github.io/MagicBrush/)を紹介します。これは、シングルターン、マルチターン、マスク提供、マスクフリーといった多様なシナリオをカバーする、初の大規模な手動アノテーションによる指示ガイド付き実画像編集データセットです。MagicBrushは、10,000以上の手動アノテーションされたトリプル(ソース画像、指示、ターゲット画像)で構成されており、大規模なテキストガイド付き画像編集モデルの学習をサポートします。私たちはInstructPix2PixをMagicBrushでファインチューニングし、新しいモデルが人間評価においてはるかに優れた画像を生成できることを示します。さらに、定量的、定性的、人間評価を含む多角的な観点から、現在の画像編集ベースラインを評価するための広範な実験を行います。その結果、私たちのデータセットの挑戦的な性質と、現在のベースラインと現実世界の編集ニーズとのギャップが明らかになります。
English
Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triples (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.
PDF356December 15, 2024