ChatPaper.aiChatPaper

UltraEdit: 大規模な指示ベースの細粒度画像編集

UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

July 7, 2024
著者: Haozhe Zhao, Xiaojian Ma, Liang Chen, Shuzheng Si, Rujie Wu, Kaikai An, Peiyu Yu, Minjia Zhang, Qing Li, Baobao Chang
cs.AI

要旨

本論文では、指示ベースの画像編集のための大規模(約400万の編集サンプル)で自動生成されたデータセットであるUltraEditを紹介する。我々の主要なアイデアは、InstructPix2PixやMagicBrushなどの既存の画像編集データセットの欠点を解決し、大規模で高品質な画像編集サンプルを生成するための体系的なアプローチを提供することである。UltraEditは以下のような特徴を有する:1)大規模言語モデル(LLM)の創造性と人間の評価者による文脈内編集例を活用することで、より広範な編集指示を提供する;2)データソースは写真や芸術作品などの実画像に基づいており、テキストから画像を生成するモデルだけに依存するデータセットと比較して、多様性が高くバイアスが低減されている;3)高品質で自動生成された領域アノテーションにより強化された、領域ベースの編集もサポートする。実験結果から、UltraEditで訓練された標準的な拡散ベースの編集ベースラインは、MagicBrushおよびEmu-Editベンチマークで新記録を樹立することが示された。分析により、実画像のアンカーと領域ベースの編集データの重要性がさらに確認された。データセット、コード、モデルはhttps://ultra-editing.github.ioで公開されている。
English
This paper presents UltraEdit, a large-scale (approximately 4 million editing samples), automatically generated dataset for instruction-based image editing. Our key idea is to address the drawbacks in existing image editing datasets like InstructPix2Pix and MagicBrush, and provide a systematic approach to producing massive and high-quality image editing samples. UltraEdit offers several distinct advantages: 1) It features a broader range of editing instructions by leveraging the creativity of large language models (LLMs) alongside in-context editing examples from human raters; 2) Its data sources are based on real images, including photographs and artworks, which provide greater diversity and reduced bias compared to datasets solely generated by text-to-image models; 3) It also supports region-based editing, enhanced by high-quality, automatically produced region annotations. Our experiments show that canonical diffusion-based editing baselines trained on UltraEdit set new records on MagicBrush and Emu-Edit benchmarks. Our analysis further confirms the crucial role of real image anchors and region-based editing data. The dataset, code, and models can be found in https://ultra-editing.github.io.

Summary

AI-Generated Summary

PDF151November 28, 2024