ChatPaper.aiChatPaper

UltraEdit: Anweisungsbasierte Feinkörnige Bildbearbeitung im großen Maßstab

UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

July 7, 2024
Autoren: Haozhe Zhao, Xiaojian Ma, Liang Chen, Shuzheng Si, Rujie Wu, Kaikai An, Peiyu Yu, Minjia Zhang, Qing Li, Baobao Chang
cs.AI

Zusammenfassung

Dieses Papier präsentiert UltraEdit, ein groß angelegtes (ungefähr 4 Millionen Bearbeitungsbeispiele), automatisch generiertes Datenset für instruktionsbasierte Bildbearbeitung. Unsere Hauptidee besteht darin, die Nachteile in bestehenden Bildbearbeitungsdatensets wie InstructPix2Pix und MagicBrush anzugehen und einen systematischen Ansatz zur Erzeugung von umfangreichen und hochwertigen Bildbearbeitungsbeispielen bereitzustellen. UltraEdit bietet mehrere deutliche Vorteile: 1) Es bietet eine breitere Palette von Bearbeitungsanweisungen, indem es die Kreativität großer Sprachmodelle (LLMs) neben in-Kontext-Bearbeitungsbeispielen von menschlichen Bewertern nutzt; 2) Seine Datenquellen basieren auf realen Bildern, einschließlich Fotografien und Kunstwerken, die im Vergleich zu Datensets, die ausschließlich von Text-zu-Bild-Modellen generiert wurden, eine größere Vielfalt und reduzierte Voreingenommenheit bieten; 3) Es unterstützt auch eine regionenbasierte Bearbeitung, die durch hochwertige, automatisch erstellte regionale Annotationen verbessert wird. Unsere Experimente zeigen, dass kanonische Diffusions-basierte Bearbeitungs-Benchmarks, die auf dem UltraEdit-Set trainiert wurden, neue Rekorde bei den MagicBrush- und Emu-Edit-Benchmarks setzen. Unsere Analyse bestätigt weiterhin die entscheidende Rolle von realen Bildankern und regionenbasierten Bearbeitungsdaten. Das Datenset, der Code und die Modelle sind unter https://ultra-editing.github.io zu finden.
English
This paper presents UltraEdit, a large-scale (approximately 4 million editing samples), automatically generated dataset for instruction-based image editing. Our key idea is to address the drawbacks in existing image editing datasets like InstructPix2Pix and MagicBrush, and provide a systematic approach to producing massive and high-quality image editing samples. UltraEdit offers several distinct advantages: 1) It features a broader range of editing instructions by leveraging the creativity of large language models (LLMs) alongside in-context editing examples from human raters; 2) Its data sources are based on real images, including photographs and artworks, which provide greater diversity and reduced bias compared to datasets solely generated by text-to-image models; 3) It also supports region-based editing, enhanced by high-quality, automatically produced region annotations. Our experiments show that canonical diffusion-based editing baselines trained on UltraEdit set new records on MagicBrush and Emu-Edit benchmarks. Our analysis further confirms the crucial role of real image anchors and region-based editing data. The dataset, code, and models can be found in https://ultra-editing.github.io.

Summary

AI-Generated Summary

PDF151November 28, 2024